手間をかけずに、横になっている大量の書類をスキャンしたい。 Simple Scanを使用して画像に変換し、OCRを使用してテキストに変換したいと思います。ボタンを押すだけで良い結果が得られるGUIを備えた優れたOCRアプリはありますか?
GOCRfrom はOCR(Optical Character Recognition)プログラムで、スキャンした画像を変換しますテキストファイルに戻るテキストの。
CLARAはもう1つの優れたグラフィカルオプションです。
OCRADfrom は、OCRをスタンドアロンコンソールアプリケーションとして使用でき、または、他のプログラムのバックエンドとして。
KOOKAfrom はKDEアプリケーションですが、正常に動作し、さらにインストールする必要がありますGOCRやOCRADなどの実際のOCRプログラム。KookaとOCRプログラムをインストールした後、JPEGをテキストに変換できるようにKookaをOCRインストール場所にポイントする必要があります。
Tesseractfrom はコマンドラインユーティリティであり、非常に使いやすいです。言語をインストールできますパッケージ tesseract-ocr-eng from here .
これをご覧ください ページ 。
注:
tesseractを実行して端末に移動し、次のように入力します
tesseract imagefile.tif outputfile.txt
TesseractはTIFFファイルのみを読み取ることができます-JPEGまたはPDFなどをお持ちの場合は、変換する必要があります。また、ファイル名の拡張子は.tiffではなく.tifである必要があります。そうでない場合、tesseractエラーが発生します。
使用できる一般的なOCRコマンドラインツールはほとんどありません(GUIがあるかどうかはわかりません)。
Tesseract ( ReadMe 、 FAQ )(Python)
以下も利用可能: Tesseract .NET 、 Tesseract iOS
1985年から1995年の間にHP Labsで開発され、現在はGoogleで開発されたOCRエンジン。 Tesseractは、おそらく最も正確なオープンソースOCRエンジンです。
使用法:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
オープンソースの文字認識。スキャンしたテキストの画像をテキストファイルに戻します。 GOCRはさまざまなフロントエンドで使用できるため、さまざまなOSやアーキテクチャに簡単に移植できます。多くの異なる画像形式を開くことができ、その品質は日々向上しています。
OCRopus ™( FAQ )(Python、NumPy、およびSciPyで記述)
プラガブルなレイアウト分析、プラガブルな文字認識、統計的自然言語モデリング、多言語機能を備えた、ドキュメント分析の問題に対処するための大規模機械学習の使用に焦点を当てたOCRシステム。
OCRopusエンジンは、2つの研究プロジェクトに基づいています。90年代半ばに開発され、米国国勢調査局によって展開された高性能手書き認識エンジンと、新しい高性能レイアウト分析方法です。
OCRopusは、Googleが後援する開発であり、当初は高スループットで大量のドキュメント変換を目的としています。また、他の多くのアプリケーションにとっても優れたOCRシステムになると期待しています。
Tessnet2 (オープンソース、OCR、Tesseract、.NET、DOTNET、C#、VB.NET、C++/CLI)
Tesseractは、C++オープンソースOCRエンジンです。 Tessnet2は、OCRを実行するための非常に簡単なメソッドを公開する.NETアセンブリです。 Tessnet2はApache 2ライセンス(tesseractなど)の下にあります。つまり、商用製品に含まれており、好きなように使用できます。
その他: ABBYY CLI OCR for Linux 、 Asprise OCR
より完全なリストについては、次を確認してください。 光学式文字認識ソフトウェアのリスト ウィキペディア
参照: wanghaisheng/awesome-ocr
-有望なOCRリソースの精選されたリスト GitHubで。
linux-intelligent-ocr-solution
免責事項-私はこのオープンソースソリューションの開発と密接に関係しています
Liosは、スキャナーまたはカメラを使用して印刷をテキストに変換できます。
また、PDF、画像、または画像を含むフォルダなど、他のソースからスキャンした画像からテキストを生成することもできます。
プログラムは視覚障害者のための完全なアクセシビリティを提供されます。
私は密接につながっているので、フィードバックが欲しいです。
複数ページPDFまたはスキャンされたドキュメントのOCR
これがおそらく最も簡単な方法です。 Gscan2pdfは、ファイルをスキャンするだけでなく、ファイルをインポートしてOCRを実行できるグラフィカルツールです。インストール ここからgscan2pdf 、Ubuntu Software Centerから、またはターミナルでこのコマンドを実行します:
Sudo apt-get install gscan2pdf
Gscan2PDFはカスタマイズ可能なOCRエンジンを使用できます。デフォルトはtesseract-ocr
です
適切な言語を選択することを検討してください。その場合、tesseract-ocr-LANG
パッケージをインストールする必要があります。LANG
は3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。
pdfocr.rb で成功しました(16.04未満)。これは buntu wiki にリストされています
これはppaです ですが、16.04のリポジトリは更新されていません。上記のgithubからのRubyスクリプトは、16.04でも動作します。
Githubからダウンロードできます。次のパッケージをインストールする必要があります。
Ruby tesseract-ocr pdftk exactimage
次に、pdfocr.rbを実行可能にして実行しました:
./pdfocf.rb -i source.pdf -o output.pdf
オプションで、-l LANG
パラメーターを使用できます。その場合、tesseract-ocr-LANG
パッケージをインストールする必要があります。LANG
は3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。
最も簡単で簡単な方法は、pypdfocr
を使用することです。PDFを変更することはありません。 pypdfocrはpythonモジュールリンクです
pypdfocr your_document.pdf
最後に、検索可能なテキストで別のyour_document_ocr.pdf
が必要になります。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。
コマンドはGUIを必要としないので非常に簡単だと思います。 pypdfocrのインストールはもう少し冗長かもしれません:
Sudo apt install tesseract-ocr
pip install pypdfocr
pypdfocr
は2016年以降サポートされなくなり、メンテナンスされていないためにいくつかの問題に気づきました。 ocrmypdf
( module は類似のジョブを実行し、次のように使用できます。
ocrmypdf in.pdf out.pdf
インストールする:
pip install ocrmypdf
または
apt install ocrmypdf
gscan2pdfには3つの異なるocrエンジンが含まれています。プログラムを直接スキャンするか、pdfをプログラムにインポートできます。 Tesseractエンジンは優れた機能を発揮し、非常に使いやすいことがわかりました。