最高の、最も簡単なOCRソリューションは何ですか？

Question

手間をかけずに、横になっている大量の書類をスキャンしたい。 Simple Scanを使用して画像に変換し、OCRを使用してテキストに変換したいと思います。ボタンを押すだけで良い結果が得られるGUIを備えた優れたOCRアプリはありますか？

karthick87 · Accepted Answer

GOCR from はOCR（Optical Character Recognition）プログラムで、スキャンした画像を変換しますテキストファイルに戻るテキストの。
CLARA はもう1つの優れたグラフィカルオプションです。
OCRAD from は、OCRをスタンドアロンコンソールアプリケーションとして使用でき、または、他のプログラムのバックエンドとして。
KOOKA from はKDEアプリケーションですが、正常に動作し、さらにインストールする必要がありますGOCRやOCRADなどの実際のOCRプログラム。KookaとOCRプログラムをインストールした後、JPEGをテキストに変換できるようにKookaをOCRインストール場所にポイントする必要があります。
OCRFeeder from は、文書レイアウト分析および光学式文字認識システムです。
Tesseract from はコマンドラインユーティリティであり、非常に使いやすいです。言語をインストールできますパッケージ tesseract-ocr-eng from here .

これをご覧くださいページ。

注：
tesseractを実行して端末に移動し、次のように入力します

tesseract imagefile.tif outputfile.txt

TesseractはTIFFファイルのみを読み取ることができます-JPEGまたはPDFなどをお持ちの場合は、変換する必要があります。また、ファイル名の拡張子は.tiffではなく.tifである必要があります。そうでない場合、tesseractエラーが発生します。

kenorb · Answer

使用できる一般的なOCRコマンドラインツールはほとんどありません（GUIがあるかどうかはわかりません）。

Tesseract （ ReadMe 、 FAQ ）（Python）

以下も利用可能： Tesseract .NET 、 Tesseract iOS

1985年から1995年の間にHP Labsで開発され、現在はGoogleで開発されたOCRエンジン。 Tesseractは、おそらく最も正確なオープンソースOCRエンジンです。

使用法：
```
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile] 
```
GOCR

オープンソースの文字認識。スキャンしたテキストの画像をテキストファイルに戻します。 GOCRはさまざまなフロントエンドで使用できるため、さまざまなOSやアーキテクチャに簡単に移植できます。多くの異なる画像形式を開くことができ、その品質は日々向上しています。
OCRopus ™（ FAQ ）（Python、NumPy、およびSciPyで記述）

プラガブルなレイアウト分析、プラガブルな文字認識、統計的自然言語モデリング、多言語機能を備えた、ドキュメント分析の問題に対処するための大規模機械学習の使用に焦点を当てたOCRシステム。

OCRopusエンジンは、2つの研究プロジェクトに基づいています。90年代半ばに開発され、米国国勢調査局によって展開された高性能手書き認識エンジンと、新しい高性能レイアウト分析方法です。

OCRopusは、Googleが後援する開発であり、当初は高スループットで大量のドキュメント変換を目的としています。また、他の多くのアプリケーションにとっても優れたOCRシステムになると期待しています。
Tessnet2 （オープンソース、OCR、Tesseract、.NET、DOTNET、C＃、VB.NET、C++/CLI）

Tesseractは、C++オープンソースOCRエンジンです。 Tessnet2は、OCRを実行するための非常に簡単なメソッドを公開する.NETアセンブリです。 Tessnet2はApache 2ライセンス（tesseractなど）の下にあります。つまり、商用製品に含まれており、好きなように使用できます。

その他： ABBYY CLI OCR for Linux 、 Asprise OCR

より完全なリストについては、次を確認してください。光学式文字認識ソフトウェアのリストウィキペディア

参照： wanghaisheng/awesome-ocr-有望なOCRリソースの精選されたリスト GitHubで。

Nalin.x.Linux · Answer

linux-intelligent-ocr-solution

免責事項-私はこのオープンソースソリューションの開発と密接に関係しています

Liosは、スキャナーまたはカメラを使用して印刷をテキストに変換できます。

また、PDF、画像、または画像を含むフォルダなど、他のソースからスキャンした画像からテキストを生成することもできます。

プログラムは視覚障害者のための完全なアクセシビリティを提供されます。

私は密接につながっているので、フィードバックが欲しいです。

mxdsp · Answer

Gscan2PDF

複数ページPDFまたはスキャンされたドキュメントのOCR

これがおそらく最も簡単な方法です。 Gscan2pdfは、ファイルをスキャンするだけでなく、ファイルをインポートしてOCRを実行できるグラフィカルツールです。インストールここからgscan2pdf 、Ubuntu Software Centerから、またはターミナルでこのコマンドを実行します：

Sudo apt-get install gscan2pdf

Gscan2pdfを実行する
PDFをインポート（Ctrl + O）
オプション：[ツール]> [クリーンアップ]
[ツール]> [OCR保存]（Ctrl + S）を選択します

Gscan2PDFはカスタマイズ可能なOCRエンジンを使用できます。デフォルトはtesseract-ocrです

適切な言語を選択することを検討してください。その場合、tesseract-ocr-LANGパッケージをインストールする必要があります。LANGは3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。

ソース

Jacob Vlijm · Answer

それが非常にうまく機能するという理由だけで、間違いなくリストに含まれるべきです：

gimageReader
スクリーンショットの例：

リポジトリにあります（18.10で回答されましたが、長年使用されています）

user75505 · Answer

pdfocr.rb で成功しました（16.04未満）。これは buntu wiki にリストされています

これはppaですですが、16.04のリポジトリは更新されていません。上記のgithubからのRubyスクリプトは、16.04でも動作します。

Githubからダウンロードできます。次のパッケージをインストールする必要があります。

Ruby tesseract-ocr pdftk exactimage

次に、pdfocr.rbを実行可能にして実行しました：

./pdfocf.rb -i source.pdf -o output.pdf

オプションで、-l LANGパラメーターを使用できます。その場合、tesseract-ocr-LANGパッケージをインストールする必要があります。LANGは3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。

Eduard Florinescu · Answer

最も簡単で簡単な方法は、pypdfocrを使用することです。PDFを変更することはありません。 pypdfocrはpythonモジュールリンクです

pypdfocr your_document.pdf

最後に、検索可能なテキストで別のyour_document_ocr.pdfが必要になります。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。

コマンドはGUIを必要としないので非常に簡単だと思います。 pypdfocrのインストールはもう少し冗長かもしれません：

Sudo apt install tesseract-ocr pip install pypdfocr

2018年11月3日更新：

pypdfocrは2016年以降サポートされなくなり、メンテナンスされていないためにいくつかの問題に気づきました。 ocrmypdf（ module は類似のジョブを実行し、次のように使用できます。

ocrmypdf in.pdf out.pdf

インストールする：

pip install ocrmypdf

または

apt install ocrmypdf

Vince West · Answer

gscan2pdfには3つの異なるocrエンジンが含まれています。プログラムを直接スキャンするか、pdfをプログラムにインポートできます。 Tesseractエンジンは優れた機能を発揮し、非常に使いやすいことがわかりました。