Linuxの場合-スキャンされた画像ではなく、実際にテキストである.pdf
からテキストを抽出する方法対話式ではなく、コマンドライン/スクリプトで使用できるものが欲しいのですが。 (.tif
に変換してOCRを使用したくありません。テキストは.pdf
ファイルですでに利用可能になっているので、なぜ不完全なOCRによる不正確さを導入するのですか?)
popplerに付属するpdftotext
は、PDFで見つかったテキストを抽出しようとします。
イグナシオの答えは結構です。実際、それは私のリストの最初のものです。まあ、それはおそらく、テキストを段落などに再構成したい場合、popplerに付属するpdftohtml
ツールを pdfreflow と組み合わせて提案することです(もちろん、これはHTML出力が得られますが、HTMLからプレーンテキストへの変換はさまざまな方法で行うことができます。
他にもいくつかのオプションがあります。
ebook-convert
Calibre のコマンドラインツール。PDFをプレーンテキストに変換できます(またはRTFまたはePubなどの電子ブック形式など)。
pdftxtextract
from Podofo
Abiword は、コマンドラインから呼び出して、入力/エクスポートできる任意のフォーマット間で変換できます。適切なインポートプラグインを使用すると、PDFが含まれます。
abiword --to=txt file.pdf
(公平に言えば、AbiWordと口径の両方がpopplerライブラリーを使用していると思いますが、私は前向きではありません。)