PDFを取得し、プレーンテキストに変換する「ワンクリック」の方法を探しています。理想的にはOSXまたはLinuxで。
理想的には、ソリューションにOCR機能が含まれますが、必ずしもそうする必要はありません。
最優先事項は、構成なしで任意のファイルを取得できるものを持つことです。
xpdf があり、これにはpdftotext
バイナリが含まれています。
Pdftotextは、Portable Document Format(PDF)ファイルをプレーンテキストに変換します。
Linuxでは、インストーラーを利用できます。 poppler-utils
パッケージにも含まれているようです。 OS Xでは、 Homebrew (最初にインストール)を使用してインストールしてから、
brew install homebrew/x11/xpdf
ソースファイルをダウンロードしてOSX用にコンパイルします。その後、次のように使用します。
pdftotext your_pdf_file.pdf
プレーンテキストファイルを生成します。いくつかのオプションもあります。詳細については、man pdftotext
を確認してください。
別の方法は、OSXでは poppler です。
brew install poppler
debianとその仲間たち
apt-get install poppler-utils
Windows用の優れたツールは A-PDF Text Extractor