web-dev-qa-db-ja.com

多くのPDFファイル(まだOCRedではない)のバッチOCR?

Googleデスクトップ検索(私はVistaを使用しています)を使用していますが、すべてのPDFファイルがアーカイブフォルダで認識されません。通常は "スキャンされた画像を含むPDFファイル "はインデックスに登録されませんhttp://desktop.google.com/support/bin/answer.py ?hl = en&answer = 90651

だから私は私のPDFまだOCRedではないファイルの多くをOCRしたいと思います。私の目標:私はプログラムにフォルダを与え、それはで単独で検索しますサブフォルダーPDF PDF-OCRedファイルに変換する必要があるファイル。

注:以前は、PDFファイルがパスワードで保護されていた場合、別のバッチ(有料)ツールでパスワードを削除しました:verypdf.com "pwdremover" http:// www .verypdf.com/pwdremover /

(それほど高価ではない)アイデア?

私はすでに試しました:当時xpでFinereader 6 proを試しましたが、バッチプロセッサは含まれていませんでした... Tesseractを使用するPaperfilepaperfile.net http://code.google.com/p/tesseract-ocr/ 。ただし、OCRはPDFテキストへの変換であり、PDF PDFへの変換ではありません。別のプロジェクトもあります http://code.google.com/p/ocropus /

前もって感謝します ;)

9
Erb

tl; dr? Nuance PowerPDFAdvancedから始めます。

私は2014年12月に大規模プロジェクトの準備としてOCRソフトウェアを評価しました。バッチで行われた数百万の英語ページのOCRです。あなたが数百ドルを費やすことをいとわないなら、あなたには多くの選択肢があります。数百ページを変換するだけでよい場合は、試用版を使用できます。

多くのソフトウェアパッケージは、すべての入力ファイルをロードし、OCRを実行し、混乱を1つの出力にまとめたいと考えています。私見これは完全に間違っています、私は誰がそれを望んでいるのか分かりません。私は真のバッチを探していました。入力ファイルごとに1つの出力ファイル、無人操作、何も停止しないでください。最後に詳細なレポートを提供してください。ネタバレ注意:それは見つかりませんでした。

アルファベット順のパッケージが続きます。下記の価格はリストですが割引があります。一粒の塩の精度についての私のコメントを見てください。あなたの入力は私の入力と同じではないので、あなたのマイレージは確かに異なります。

ABBYY Finereader 12 Corporate:400ドル。バッチ機能は「タスクマネージャー」と呼ばれ、[ツール]メニューにあります。サブフォルダーを含むフォルダーのファイルを処理します。入力ファイルごとに個別の出力ファイルが作成されます。入力フォルダの階層を保持することはできないようです。すべての出力ファイルは同じ出力フォルダーに移動しました。私のテストでは精度は高かったが、それでも、ここに挙げたパッケージの中で最低のものであった。

Adobe Acrobat XI:$ 300。バッチ機能は「テキスト認識/複数ファイル内」と呼ばれ、ツール(3番目のツールバー、メイン画面の右上)をクリックして見つけることができます。入力ごとに1つの出力であるサブフォルダーを処理します。パスワードで保護されたファイルが見つかった場合、停止してプロンプトを表示します。デフォルトでは、入力ディレクトリツリーは保持されません。入力と同じフォルダに出力を書き込むことでこれを行うことができます。私のテストでは精度はかなり良かった。

Nuance OmniPage Ultimate(別名v19):500ドル。バッチ機能は「DocuDirect」と呼ばれ、パッケージに付属する別個のプログラムです。フォルダとサブフォルダを処理します。適切な機能を選択すると、出力領域に入力ディレクトリツリーが保持されます。入力ごとに1つの出力。保護されたファイルのパスワードを停止して要求します。マルチコアプロセッサを活用してタスクを並行して実行しているようです。精度は優れたでした。しかし、バッチプロセッサの安定性は不十分です。あいまいなドキュメントはそのトラックでそれを停止し、回復することは決してなく、バッチを簡単に脱線させます。

Nuance PowerPDF Advanced v1.1(OmniPage Ultimateの後継):150ドル。バッチ機能は「バッチコンバーター」と呼ばれ、メインプログラムの[高度な処理]タブからアクセスできます。フォルダーとサブフォルダーを処理し、出力の入力構造を保持します。入力ごとに1つの出力。複数のコアを使用しますが、積極的ではありません。つまり、マルチコアホストを飽和させることができませんでした。精度はexcllentで、OmniPageと同等かそれ以上です。不良ファイルやあいまいなファイルによってハングすることはありませんでした。バッチプロセッサは、プレーンテキストのログファイルを出力ディレクトリに書き込みます(shock)。

ReadIris Corporate 14:600ドル。バッチ機能は、メイン画面の「ファイルから」ボタンをクリックして表示される「バッチOCR」アイテムによって呼び出されます。フォルダとサブフォルダを処理し、入力ごとに1つの出力を処理します。デフォルトでは、出力ディレクトリ構造は入力ディレクトリ構造と一致します。無効なファイルに対するユーザー入力を停止して要求します。画像をOCR処理することにより、すべての保護されたドキュメントに明らかに苦情を申し立てることなく処理します。精度はAcrobatと同等の非常に良好でした。

デスクトップマシン(デュアルコアのみ)では、選択した入力を使用して、すべてのパッケージでページを処理するのに少なくとも3秒かかりました。いくつかはもっとかかりました。より多くのコアを備えたマシンでこれを駆動できる可能性があります。

落とし穴はたくさんあります。無効なPDF(一部のパッケージは停止します)、パスワードで保護されたPDF(一部のパッケージは停止し、他のパッケージはとにかく変換​​されます!)、回転したページ(縦向きではなく横向き)など、必ず計画してください。バッチを最後まで実行する場合は、これらのパッケージの入力領域を非常に慎重に準備する必要があります。 PDFから保護を解除する方法については、GhostScriptパッケージのPDFへの印刷機能を調べてください。

大量のバッチを実行すると、メモリの枯渇やハングの問題が発生する可能性がありますが、そうすべきではありません(argh-おそらくメモリリーク)。なんらかの自動化を行っている場合、大きな問題は、実際に何が起こったのかを発見したことです。どのドキュメントが処理できなかったか、処理中に失敗したかなどです。デスクトップソフトウェアが、 「ログファイル」。

最終的に、有料の顧客であっても、これらのマスマーケットパッケージではサポートを受けるのはかなり困難です。たとえば、私はある尊敬されているカスタマーサポート担当者に、いくつかの大きな入力のためにぶら下がっているパッケージ(名前はありません)について不平を言いました。私はあきらめる前に36時間待った:)。彼らは、バッチサイズを300ドキュメントに制限することを提案しました。それはまったく受け入れがたいことでしたが、サポートチケットがすぐに閉じてしまいましたね。重要なのはそれだけですよね?はぁ。

HTH

6
chrisinmtown

Adobe AcrobatはPDFのフォルダーを処理し、ほとんどのAdobe製品と同様に 日間トライアル があります。
この関数は「ドキュメント」メニューにあります。

ドキュメント> OCRテキスト認識> OCRを使用して複数のファイルのテキストを認識します

そこからフォルダを追加できます。

Acrobat Xでは、この機能は次のように使用できます。

ツール>テキストの認識>複数のファイル
3
pelms

実際、 pdfsandwich は昨年中に更新されており、LinuxMintにインストールするのはまったく難しくありませんでした。それが与える結果はAdobeAcrobatより劣っていますが、これは私がこれまでLinuxで見つけた唯一の実行可能な解決策です。

1
Brian Z

WatchOCR を試してください。スキャンされた画像をテキスト検索可能なPDFに変換するオープンソースソフトウェアパッケージです。これは無料でオープンソースであり、リモート管理用の優れたWebインターフェイスを備えています。適切な構成では、smb共有を介してネットワーク全体のバッチpdf/ocrサービスを作成するために使用されます。残念ながら、これはLinuxのみです。ただし、古いサーバーにインストールして、組織全体で使用することもできます。

何もインストールせずに同じことをオンラインで行いたい場合は、試してください PDFCubed.com

0
rlangner