ねえ、かなり長い間、コマンドライン用のpdfビューアを探しています。
LinuxでXを使用せずに作業し、多くの場合リモートマシンで作業するのが好きなので、pdfを読むためのツールが必要です。ジョブを実行するための非常に優れたグラフィカルプログラム(evince、okular、acroreadなど)が非常に多いため、少なくとも1つの適切なテキストモードツールが必要であると考えました。しかし、私はくだらないものすら知らない!
現在、私はXを起動してPDFを読むか、pdftohtml + lynxを使用しています。ただし、後者は非常に優れた出力を生成せず、ほとんどの文書は、特に数式が含まれている場合は読み取り不能です。
Googleは不可能だとか、pdftohtmlバージョンを提案していると言う人でいっぱいです。
これはプログラミングの問題ではありませんが、良いプログラムが既に存在しない限り、そのようなプログラムを実装するプロジェクトを開始することを現在検討しています。
提案をありがとう。
こんにちは。目的に合わせてプログラムを作成する必要はないと思います。コンソールモードでpdfファイルを読み込むことを意味します。「less」コマンドが既に実行しているからです。それを使って、楽しんでください。
「pdfファイルの名前」
さて、あなたは「くだらない」ものでさえ知っているように頼みました。ここに2つあります(それぞれのクラッパネスについて自分で決めてください):
最初: ゴーストスクリプトtxtwrite
出力デバイス
gs \
-dBATCH \
-dNOPAUSE \
-sDEVICE=txtwrite \
-sOutputFile=- \
/path/to/your/pdf
2番目: XPDF'spdftotext
CLIユーティリティ(Ghostscriptよりも優れています):
pdftotext \
-f 13 \
-l 17 \
-layout \
-opw supersecret \
-upw secret \
-eol unix \
-nopgbrk \
/path/to/your/pdf
- |less
これにより、ページ範囲13(f最初のページ)から17(lastページ)、PDFファイル(ユーザーと所有者のパスワードsecretおよびsupersecret)、Unix EOL規則を使用しますが、PDFページの間にページ区切りを挿入せず、パイプスルーを少なくします...
pdftotext -h
は、使用可能なすべてのコマンドラインオプションを表示します。
もちろん、両方のツールは、PDFのテキスト部分に対してのみ機能します(ある場合)。ああ、数式もうまく機能しません... ;-)
編集:上記のコマンドの入力ミスがありました(元はpdftops
の代わりにpdftotext
を使用していました)。
ちなみに、私はいつも同じ状況で、テキストpdfを非常にうまく処理するmc(真夜中の司令官)を使用しています... mcでファイル(F3)を表示するだけです
これは、PDFドキュメントが構造化されている場合、つまり、 タグ付きPDF である場合にのみ機能します=ドキュメント。
これは、ドキュメント内のテキストオブジェクトの正しい読み取り順序を取得するために必要です。
タグ付きPDFドキュメントを使用すると、コマンドライン出力でこれを行うツールはわかりませんが、ドキュメントをリフローすることもできます。