Kindleなんかでも読み上げ機能があるけど、読み間違いが気になっちゃうんだよね。

よく考えてみると、ルビ付きの電子データって、あまり無い気がするから、英語なら単に個々の単語の発音記号を当てはめれば良いことでも、日本語だと、形態素解析した上で複数の読みがあるものについては、どの読みが適しているか意味的に判断させる必要があって難しそう。

さらに、そのことを学習させようにも、ルビ付きの電子データが少ないせいで学習データが足りない気がする。そもそも、ルビ付きの電子データの標準的な規格があるかも怪しいし、ルビが付いているデータって、見つかったとしても小学生向けの文章に偏っていそうな気がする。難しい漢字の読み方って、辞書引いて知ったような記憶があるし、そのレベルの単語って往々にして、世間でも読み間違っていたりするしね。

そういう単語は、文章としての日本語に偏って使われていて、読みが不明であっても漢字と文脈で意味を推定して、何とかなっているということなのかもしれない。

フォロー

視覚障害者向けのサービスで作られる電子データを読み上げ機能用の学習データに使い、逆に、読み上げ機能で得られた利益で視覚障害者向けの人力で行う音声データ作成へ還元できると良いねぇ。妄想だけど。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。