パブリックドメインの本のすべてのページに広がる愚かな電子メールの透かしを削除する必要があります。 pdftkのマニュアルページといくつかの例を確認しましたが、透かしを削除する方法がわかりません。ヒントありがとうございます。
実行する非常に単純なタスク:
sedを使用:
sed -e "s/watermarktextstring/ /g" <input.pdf >unwatermarked.pdf
しかし、その後、必ずrepair結果の出力pdf
pdftk unwatermarked.pdf output fixed.pdf && mv fixed.pdf unwatermarked.pdf
すべて1つのコマンドに:
sed -e "s/watermarktextstring/ /g" <input.pdf >unwatermarked.pdf && pdftk unwatermarked.pdf output fixed.pdf && mv fixed.pdf unwatermarked.pdf
テキスト透かしは、PDF圧縮コード内の2つのタグ間のテキストに他なりません
私にとってはうまくいかなかったので、Dingoの答えのほんの少しのアドオン:
透かしを見つけてsed
で置き換えるには、まずPDFドキュメントを解凍する必要がありました。最初のステップは、PDF pdftk
を使用したドキュメント:
pdftk original.pdf output uncompressed.pdf uncompress
今、uncompressed.pdf
はDingoの回答のように使用できます。
sed -e "s/watermarktextstring/ /" uncompressed.pdf > unwatermarked.pdf
次に、ドキュメントを修復して再圧縮しました。
pdftk unwatermarked.pdf output fixed.pdf compress