web-dev-qa-db-ja.com

画像からテキストを抽出するにはどうすればよいですか?

画像からテキストを抽出するにはどうすればよいですか?

スキャンされたファイルについてではなく、授業で黒板の高解像度写真を撮るときなど、庭のさまざまな画像で、きれいに手書きされています。または、レシピ帳からページを撮影し、テキスト形式のレシピが必要な場合。

そのための無料でオープンなソフトウェアはありますか?

Tesseractを試してみましたが、結果はひどいものでした。

24
Strapakowsky

画像からテキストを抽出する行為はOCRと呼ばれ、Ubuntuには OCR 専用のWikiページがあります。そのページから:

利用可能なOCRツール

Ubuntu Universeリポジトリには、次のOCRツールが含まれています。

  1. gocr -コマンドラインOCR
  2. fuzzyocr -画像の添付ファイルを確認するspamassassinプラグイン
  3. libhocr -ヘブライ語OCR
  4. ocrad -光学式文字認識プログラム
  5. ocrfeeder -ドキュメントレイアウト分析および光学式文字認識システム
  6. ocropus -ドキュメント分析およびOCRシステム
  7. tesseract-ocr

Ubuntuマルチバースリポジトリには次のものも含まれます。

  1. cuneiform -多言語OCRシステム

一部のパッケージは古くなっていますが、非公式の新しいパッケージは Alex_P PPA (PPA追加コード:ppa:alex-p/notesalexp)にあります。 PPAチェックを使用したことがない場合 PPAからソフトウェアを追加する方法

編集:コメントに示されているように Clara OCR も存在しますが、Hardyで動きが止まり、ウェブサイトの最終更新日は2009です。

26
Rinzwind

tesseract-ocrは他のすべてに比べて素晴らしいものです。インストールの場合は、コマンドSudo apt-get install tesseract-ocrを実行します。

使用法はtesseract filename.jpg output.txtです。

上記のコマンドはoutput.txtを生成します。

適切な言語を選択することを検討してください。その場合、tesseract-ocr-LANGパッケージをインストールする必要があります。LANGは3文字 ISO 639-2言語コード です。現在、18.04リポジトリには123の言語があります。 その後使用 例:

tesseract mySpanishText.jpg output -l spa
18
Sudhir Belagali