画像からテキストを抽出するにはどうすればよいですか？

Question

スキャンされたファイルについてではなく、授業で黒板の高解像度写真を撮るときなど、庭のさまざまな画像で、きれいに手書きされています。または、レシピ帳からページを撮影し、テキスト形式のレシピが必要な場合。

そのための無料でオープンなソフトウェアはありますか？

Tesseractを試してみましたが、結果はひどいものでした。

Rinzwind · Accepted Answer

画像からテキストを抽出する行為はOCRと呼ばれ、Ubuntuには OCR 専用のWikiページがあります。そのページから：

利用可能なOCRツール

Ubuntu Universeリポジトリには、次のOCRツールが含まれています。

Ubuntuマルチバースリポジトリには次のものも含まれます。

一部のパッケージは古くなっていますが、非公式の新しいパッケージは Alex_P PPA （PPA追加コード：ppa：alex-p/notesalexp）にあります。 PPAチェックを使用したことがない場合 PPAからソフトウェアを追加する方法。

編集：コメントに示されているように Clara OCR も存在しますが、Hardyで動きが止まり、ウェブサイトの最終更新日は2009です。

Sudhir Belagali · Answer

tesseract-ocrは他のすべてに比べて素晴らしいものです。インストールの場合は、コマンドSudo apt-get install tesseract-ocrを実行します。

使用法はtesseract filename.jpg output.txtです。

上記のコマンドはoutput.txtを生成します。

tesseract mySpanishText.jpg output -l spa