画像からテキストを抽出するにはどうすればよいですか?
スキャンされたファイルについてではなく、授業で黒板の高解像度写真を撮るときなど、庭のさまざまな画像で、きれいに手書きされています。または、レシピ帳からページを撮影し、テキスト形式のレシピが必要な場合。
そのための無料でオープンなソフトウェアはありますか?
Tesseractを試してみましたが、結果はひどいものでした。
画像からテキストを抽出する行為はOCR
と呼ばれ、Ubuntuには OCR 専用のWikiページがあります。そのページから:
利用可能なOCRツール
Ubuntu Universeリポジトリには、次のOCRツールが含まれています。
Ubuntuマルチバースリポジトリには次のものも含まれます。
一部のパッケージは古くなっていますが、非公式の新しいパッケージは Alex_P PPA (PPA追加コード:ppa:alex-p/notesalexp)にあります。 PPAチェックを使用したことがない場合 PPAからソフトウェアを追加する方法 。
編集:コメントに示されているように Clara OCR も存在しますが、Hardyで動きが止まり、ウェブサイトの最終更新日は2009です。
tesseract-ocr
は他のすべてに比べて素晴らしいものです。インストールの場合は、コマンドSudo apt-get install tesseract-ocr
を実行します。
使用法はtesseract filename.jpg output.txt
です。
上記のコマンドはoutput.txt
を生成します。
適切な言語を選択することを検討してください。その場合、tesseract-ocr-LANG
パッケージをインストールする必要があります。LANG
は3文字 ISO 639-2言語コード です。現在、18.04リポジトリには123の言語があります。 その後使用 例:
tesseract mySpanishText.jpg output -l spa