web-dev-qa-db-ja.com

Ubuntu 13.04用のアプリケーションのようなAbbyyの素晴らしいリーダー

私はたくさんの画像を持っていますが、私がしたいのは、それらの画像をスキャンして、後で編集できるMS Wordファイルに出力することです。 Windowsの場合、Abbyyの素晴らしいリーダーがあります。しかし、Windowsに戻りたくありません。私のために同じことができるアプリケーションがあれば教えてください。これで私を助けてください。

5
Faisal Aslam

Abbyy OCRを使用できます。

Linux用のABBYY FineReader Engine CLIは、ABBYYの高度な光学文字認識(OCR)テクノロジーに基づいてすぐに使用できるCLIツールです。このツールは、LinuxシステムでのOCRおよびドキュメント変換を自動化します。

詳細およびダウンロードについては、 website をご覧ください。

ソース: Ocr4Linux

1
Mitch

まず第一に、SDKがあり、Linuxで使用できるAbbyy以外のいくつかのOCRツールがあります。ただし、すべてがMS Word出力をサポートしているわけではないことに注意してください。

  • Tesseract-テキスト出力のみ
  • Ocrad-テキスト出力のみ
  • GOCR-テキスト出力のみ
  • CuneiForm-RTF出力
  • OmniPage-GoogleドキュメントとPDF出力

これは、精度と速度に関する最初の3つのエンジンのベンチマークに関する記事(2007年からですが、おそらく関連性があります)です。 http://www.mathstat.dal.ca/~selinger/ocr-test/

ちなみに、Abbyyを含むすべてのエンジンは、非構造化テキスト、つまり、規則的な構造に従わない画像に最適です。処理している「画像」が標準レイアウトを持っている場合、例えば顧客(フィールドが常に同じ場所にある)、さまざまなカード(名刺、IDカードなど)などによって記入されたフォームには、特定のテキストフィールドのみを検出してOCRできる特別なソリューションがあります。画像「ノイズ」を出力し、構造化された方法でテキストを出力します(たとえば、名前=ジョンスミス、ID番号= 123456)。

画像が「テンプレート」であり、構造化テキストを出力できるOCRが必要な場合、実際にはごく少数のLinuxソリューションしかありません(私が知る限り)。私がよく知っている2つのソリューションを次に示します。

  • CSSN OCR( http://www.card-reader.com )。 IDカード、運転免許証、医療カード、銀行小切手、クレジットカードなどのカードタイプのドキュメントを専門としています。LinuxでWINEを使用して実行します。
  • ARH( http://www.arhungary.h )。旅行書類、パスポート、ビザ、IDカードを読むことができる。

HTH、ダナ

1
Dana Brandt