Ubuntu 13.04用のアプリケーションのようなAbbyyの素晴らしいリーダー

Question

私はたくさんの画像を持っていますが、私がしたいのは、それらの画像をスキャンして、後で編集できるMS Wordファイルに出力することです。 Windowsの場合、Abbyyの素晴らしいリーダーがあります。しかし、Windowsに戻りたくありません。私のために同じことができるアプリケーションがあれば教えてください。これで私を助けてください。

Mitch · Answer

Abbyy OCRを使用できます。

Linux用のABBYY FineReader Engine CLIは、ABBYYの高度な光学文字認識（OCR）テクノロジーに基づいてすぐに使用できるCLIツールです。このツールは、LinuxシステムでのOCRおよびドキュメント変換を自動化します。

詳細およびダウンロードについては、 website をご覧ください。

^{ソース： Ocr4Linux}

Dana Brandt · Answer

まず第一に、SDKがあり、Linuxで使用できるAbbyy以外のいくつかのOCRツールがあります。ただし、すべてがMS Word出力をサポートしているわけではないことに注意してください。

Tesseract-テキスト出力のみ
Ocrad-テキスト出力のみ
GOCR-テキスト出力のみ
CuneiForm-RTF出力
OmniPage-GoogleドキュメントとPDF出力

これは、精度と速度に関する最初の3つのエンジンのベンチマークに関する記事（2007年からですが、おそらく関連性があります）です。 http://www.mathstat.dal.ca/~selinger/ocr-test/

ちなみに、Abbyyを含むすべてのエンジンは、非構造化テキスト、つまり、規則的な構造に従わない画像に最適です。処理している「画像」が標準レイアウトを持っている場合、例えば顧客（フィールドが常に同じ場所にある）、さまざまなカード（名刺、IDカードなど）などによって記入されたフォームには、特定のテキストフィールドのみを検出してOCRできる特別なソリューションがあります。画像「ノイズ」を出力し、構造化された方法でテキストを出力します（たとえば、名前=ジョンスミス、ID番号= 123456）。

画像が「テンプレート」であり、構造化テキストを出力できるOCRが必要な場合、実際にはごく少数のLinuxソリューションしかありません（私が知る限り）。私がよく知っている2つのソリューションを次に示します。

CSSN OCR（ http://www.card-reader.com ）。 IDカード、運転免許証、医療カード、銀行小切手、クレジットカードなどのカードタイプのドキュメントを専門としています。LinuxでWINEを使用して実行します。
ARH（ http://www.arhungary.h ）。旅行書類、パスポート、ビザ、IDカードを読むことができる。

HTH、ダナ