今のOCR自動処理だと縦書き二段組振仮名多数脚注付きだともう使い物にならないようなテキストしか抽出されない。Adobe Acrobatで文字認識すると段組は少なくともきちんと処理できる。だが、その後、テキストで保存とかWord型式で保存をさせてもまったく文字が保存されない。私のやり方が悪いのかも知れないが。ウィンドウ上で文字を「すべて選択」にしてコピー&ペーストすれば、保存できるのだが、自動化は難しい。
@tolle_et_lege 横書き二段組み(二列組み?)になった中国の文芸雑誌をOCRして、めちゃくちゃな出力になった十数ページの短篇を手動で校正するのに2日かかったことが。あれは一段ずつ手動で画像をつくってOCRしたほうが早かったなとあとから思いました。
@ccmndhd OCR後にあまりにも手間を掛けて修正したときは、これは手入力で書き写した方が速かったのではないかと思うこともありますね。
様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。
@ccmndhd OCR後にあまりにも手間を掛けて修正したときは、これは手入力で書き写した方が速かったのではないかと思うこともありますね。