Fujitsu ScanSnap S5 ドキュメントスキャナーを使用して、紙のドキュメントをスキャンして検索可能なPDFにするワークフローがあります。私はバンドルされたソフトウェアの大ファンではありませんが、使用するのは非常に簡単です。紙の山を上に置き、緑色のボタンを押すと、検索可能なPDFが表示されます。
今、私はLinux(Ubuntu 10.10)で同様のことをしたいと思います。スキャナーは箱から出してサポートされています。
gscan2pdf
とXSane
を見てきました:
XSane
は強力に見えますが、ワークフローソリューションとしてはあまり適していません。gscan2pdf
は、「ボタンを押してPDFを取得する」という理想に少し近いですが、100%ではありません。あなたが推薦できる他のソフトウェア(無料またはその他)はありますか?
今年の初めにこれを研究したときに私が見つけたいくつかのことがここにあります。申し訳ありませんが、評価が限られているため、複数のハイパーリンクを投稿することはできません。そのため、リンクについてはGoogleに問い合わせる必要があります。
バックエンドにさまざまなOCRエンジンを使用できる本当に良いGUIシステム。これはおそらくあなたのワンタッチソリューションに適合します(そしてdigitxpはすでにそれについて言及しています)。
Gscan2pdfで使用できます。
ocropus は、広範囲にわたるトレーニングなしではテキストを認識していなかったため、あまり遠くまで行きませんでした。それはおそらく本には本当に良いでしょうが、請求書などでは私にはうまくいきませんでした。 YMMV。
Cuneiform で最高の成功を収め、次のワークフローのようなコマンドをスクリプト化することで検索可能なPDFを作成できました。
# extract images from scans
# (not shown)
# convert to black-and-white
optimize2bw -n -i nuance-test.png -o bw.bmp
# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp
# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html
また、exactimageパッケージをインストールする必要があります。
PDFをOCRするためのさまざまなオープンソースプロジェクト Cuniform および hocr2pdf も同様です。
あなたが見つけたものを教えてください!