web-dev-qa-db-ja.com

PDFの表示を減らすにはどうすればよいですか?

私はいくつかのプログラムを試しました:pdftotext、pdf2txt.py、...それらはすべてPDFからテキストを抽出できますが、より良い仕事をしているものは良いですless:PDFは適切なレイアウトになっています。これをどうやって減らせますか?ライブラリを使用していますか、それともPDF処理が組み込まれていますか?

私はこの機能をプログラムで使用したいので、外部プログラムとして実行する必要が少なくなるので(私はpythonを実行しています)、私は尋ねています。

私のシステムは:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
51
dangonfast

おそらくあなたのディストリビューションは人気のあるlesspipe.shスクリプトを使用しています。 LESSOPEN環境変数を確認します。

このスクリプトには多くのバリエーションがあります。 Gentooバージョンを見ています。その中に、次の行があります。

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

つまり、これらのコマンドは表示された順序で試行されます。 $1はファイル名です。

別のバージョン は、次のコマンドを使用します。

pdftohtml -stdout "$t" | parsehtml -
62
Daniel B