PDFファイルをテキストに変換してコマンドラインから一括で検索できるようにする必要があります。Ubuntu、OBSD、または類似のディストリビューション用のコンバーターはありますか?
おそらく関連する投稿、ubuntuによるOCR ここ 。
あなたにはたくさんのオプションがあります!
pdftotext
from poppler はすでに言及されています。
pdf2line
と呼ばれるHaskellプログラムがあり、うまく動作します。
calibre のebook-convert
コマンドラインプログラム(または口径自体)も別のオプションです。 PDFをプレーンテキストまたは他の電子ブック形式(RTF、ePub)に変換できます)、かなり遅いですが、私の意見では、pdftotextよりも優れた結果を生成します。
ebook-convert file.pdf file.txt
AbiWord はコマンドラインから認識できる任意のフォーマット間で変換でき、少なくともオプションでPDFインポートプラグイン:
abiword --to=txt file.pdf
さらに別のオプションはpodofotextextract
podofo PDF tools library。]からです。 私は実際には試していません。
2つのGhostscriptツールpdf2ps
とps2ascii
を組み合わせると、さらに別のオプションが利用できます。
実際にはさらにいくつかの方法を考えることができますが、今のところはそのままにしておきます。 ;)
コマンドラインで pdftotext を使用してPDFをテキストに変換できます(Ubuntu: poppler-utils ; OpenBSD:xpdf-utils
パッケージ)。
Recoll (Ubuntu: recoll ; OpenBSD:ポートがありませんが、 FreeBSD 。のポートが1つあります)を使用して、さまざまな形式のテキストドキュメントタイプ内を検索できます、PDFを含む。 GUIがあり、内部で自動的にインデックスを作成します。 pdftotext
を使用してPDFをテキストに変換します。
Acrobat Reader(Linuxでは少なくともバージョン9)には、複数ファイルの検索機能が制限されています(ディレクトリ内のすべてのファイルを検索できます)。
pdftotextはあなたが探しているものである可能性があります: http://en.wikipedia.org/wiki/Pdftotext 抽出したいテキストが実際にはpdfで一般的ではないグラフィック形式の下にない限りドキュメント。