あなたの経験から、日本語のテキストを読むための最も正確なオープンソースの光学式文字認識(OCR)ライブラリ/ソフトウェアは何ですか?
nhocr を試してみましたが、非常にクリーンな高解像度ドキュメントでもミス率は2%を超えています。
答えがないことに基づいて、nhocr IS日本人にとって最も正確なオープンソースOCRのように聞こえます。
自分で試したことはありませんが、おそらく tesseract を見てください。
ABBYYのソリューションであるFineReaderEngineでR&Dの経験があります。当時はバージョン8.1でしたが、最新のリビジョンでは最新ではありません。しかし、当時、それは私たちのハンドヘルドスキャナー製品で見つけた最高のものでした。私はそれを強くお勧めします。
ところで、XEROX PE220プリンターがバンドルされているので、エンドユーザー向けにABBYY OCRパッケージの無料バージョンを入手できます。そのプリンターは数年間私の机の上にありました。 Xeroxは、OCRも最高のものとして賭けていました。