ブログを更新しました→国立国会図書館「次世代デジタルライブラリー」のOCR結果について https://kanageohis1964.blog.fc2.com/blog-entry-567.html
歴史系のアカウントがマストドン上にまだあまりいないかもだけど、取り敢えず共有してみる。崩し字のOCR認識精度はまだまだこれから、という話。先日の私の記事より詳細に検証されてます。
(799) 【検証】古典籍の全文検索はできるのか(前篇)【#次世代デジタルライブラリー】#NDL全文使ってみた - YouTube
https://youtu.be/3ZgSnvKWM9k [参照]
@nouhuhoumei この動画の中で検証で得られた認識率も40%台から80%台まで大きな幅がありますね。ただ、OCRの「実用性」という点ではもうちょっと精度を高めたい数値ですね。
@kanageohis1964@fedibird.com 元教師ソース次第だと思いますね。みをだと近世の木版印刷のデータでやってるので解像度は高いけどそれ以外だと弱いという特徴がありますから。