PDF to text -converter）のようなものはありますか？

Question

PDFファイルをテキストに変換してコマンドラインから一括で検索できるようにする必要があります。Ubuntu、OBSD、または類似のディストリビューション用のコンバーターはありますか？

おそらく関連する投稿、ubuntuによるOCR ここ。

frabjous · Answer

あなたにはたくさんのオプションがあります！

pdftotext from poppler はすでに言及されています。

pdf2line と呼ばれるHaskellプログラムがあり、うまく動作します。

calibre のebook-convertコマンドラインプログラム（または口径自体）も別のオプションです。 PDFをプレーンテキストまたは他の電子ブック形式（RTF、ePub）に変換できます）、かなり遅いですが、私の意見では、pdftotextよりも優れた結果を生成します。

ebook-convert file.pdf file.txt

AbiWord はコマンドラインから認識できる任意のフォーマット間で変換でき、少なくともオプションでPDFインポートプラグイン：

abiword --to=txt file.pdf

さらに別のオプションはpodofotextextract podofo PDF tools library。]からです。私は実際には試していません。

2つのGhostscriptツールpdf2psとps2asciiを組み合わせると、さらに別のオプションが利用できます。

実際にはさらにいくつかの方法を考えることができますが、今のところはそのままにしておきます。 ;）

Gilles &#39;SO- stop being evil&#39; · Answer

コマンドラインで pdftotext を使用してPDFをテキストに変換できます（Ubuntu： poppler-utils ; OpenBSD：xpdf-utilsパッケージ）。

Acrobat Reader（Linuxでは少なくともバージョン9）には、複数ファイルの検索機能が制限されています（ディレクトリ内のすべてのファイルを検索できます）。

jlliagre · Answer

pdftotextはあなたが探しているものである可能性があります： http://en.wikipedia.org/wiki/Pdftotext 抽出したいテキストが実際にはpdfで一般的ではないグラフィック形式の下にない限りドキュメント。