Web上で見つかったほとんどのPDFファイルには圧縮された読み取り不可能なデータストリームがあります。AcrobatまたはAcrobatDistillerを使用してPDFファイルの内部コンテンツを解凍することは可能ですか?テキストエディタでソースコードを読み取ることができますか?
P.S.この質問は、GhostScriptでどのように実行できるかを説明する this 回答に触発されています。
使用 cpdf :
cpdf -decompress in.pdf -o out.pdf
次に、各ページのグラフィック演算子をテキストエディタで読み取ることができます。ただし、参照として標準のコピーが必要になります。
開示:私はcpdfの作者です。
qpdf
およびpdftk
はすでに言及されています。コマンドを表示するには:
$ qpdf --qdf --object-streams=disable orig.pdf uncompressed-orig.pdf
$ pdftk orig.pdf output uncompressed-orig.pdf uncompress
mutoolただし、まだ言及されていません:
$ mutool clean -d -a orig.pdf uncompressed-orig.pdf
mutool
は、軽量のMuPDF PDF +ドキュメントビューアと一緒に出荷されるコマンドラインツールです。
PDFオブジェクトのストリームをAcrobatまたはDistillerで解凍することはできないと思います(追加の有料ソフトウェアプラグインが利用可能でない限り)。