ブログを更新しました→国立国会図書館「次世代デジタルライブラリー」のOCR結果について kanageohis1964.blog.fc2.com/bl

フォロー

歴史系のアカウントがマストドン上にまだあまりいないかもだけど、取り敢えず共有してみる。崩し字のOCR認識精度はまだまだこれから、という話。先日の私の記事より詳細に検証されてます。

(799) 【検証】古典籍の全文検索はできるのか(前篇)【 - YouTube
youtu.be/3ZgSnvKWM9k [参照]

元教師ソース次第だと思いますね。みをだと近世の木版印刷のデータでやってるので解像度は高いけどそれ以外だと弱いという特徴がありますから。

この動画の中で検証で得られた認識率も40%台から80%台まで大きな幅がありますね。ただ、OCRの「実用性」という点ではもうちょっと精度を高めたい数値ですね。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。