web-dev-qa-db-ja.com

PDFドキュメントでOCRを実行するにはどうすればよいですか？

重複の可能性：
LinuxでPDF）からOCRを使用してテキストを抽出する方法？

スキャンしてPDF形式に変換した英語とヘブライ語のドキュメントがいくつかあります。

スキャンされたPDFを処理し、少なくとも英語で、できればヘブライ語でもOCRを実行できる無料または安価なユーティリティはありますか？

ありがとう！

pdfocrenglishhebrew

6

2010/02/16Shaul Behr

私はWindows用の無料のOCRソフトウェアのリストを見つけました。

ただし、これらのプログラムには、PDF入力ではなく、画像入力が必要です。このためには、 PDFからJPGへのコンバーターを試してください。

1

2010/02/16eleven81

私は興味深いアイデアを見つけました。これにより、GoogleはPDFファイルをOCRするすべての作業を実行できます。

1

2010/02/16eleven81

個人的には、 Ghostview を使用して画像に変換し、次に Tesseract を使用してテキストに変換します。これは完全に無料のオープンソースのクロスプラットフォームソリューションであり、プレーンテキストを変換しようとしたときに非常に良い結果が得られました。表などの複雑なドキュメントには使用しませんが、プレーンテキストの場合は価格に勝るものはありません。

0

2010/02/16Dennis