web-dev-qa-db-ja.com

PDFドキュメントでOCRを実行するにはどうすればよいですか?

重複の可能性:
LinuxでPDF)からOCRを使用してテキストを抽出する方法?

スキャンしてPDF形式に変換した英語とヘブライ語のドキュメントがいくつかあります。

スキャンされたPDFを処理し、少なくとも英語で、できればヘブライ語でもOCRを実行できる無料または安価なユーティリティはありますか?

ありがとう!

6
Shaul Behr

私はWindows用の無料のOCRソフトウェアの リスト を見つけました。

  1. FreeOCR
  2. 正八胞体
  3. WeOcr Tesseract Webインターフェイス
  4. [〜#〜] gocr [〜#〜]
  5. GOCR用のWindows GUI
  6. OCRデスクトップ
  7. 単純なOCR
  8. TopOCR

ただし、これらのプログラムには、PDF入力ではなく、画像入力が必要です。このためには、 PDFからJPGへのコンバーター を試してください。

1
eleven81

私は 興味深いアイデア を見つけました。これにより、GoogleはPDFファイルをOCRするすべての作業を実行できます。

1
eleven81

個人的には、 Ghostview を使用して画像に変換し、次に Tesseract を使用してテキストに変換します。これは完全に無料のオープンソースのクロスプラットフォームソリューションであり、プレーンテキストを変換しようとしたときに非常に良い結果が得られました。表などの複雑なドキュメントには使用しませんが、プレーンテキストの場合は価格に勝るものはありません。

0
Dennis