削除したい各ページにいくつかのテキストを含むPDFファイルがあります。
テキストは正規表現と一致しており、PDFの1つのブロックに入っていると思います。
Pdfeditを使用してGUIでテキストを選択および削除しましたが、ターミナルからこれを行う方法を探していました。
pdftkを試すことはできますが、フォントに問題があるため(私は信じています)、ほんのわずかな時間しか機能しません。
これは次のように機能します。最初にPDFファイルを解凍する必要があります。
pdftk myfile.pdf output unc.pdf uncompress
次に、それを変更します
sed 's/oldstring/newstring/g' < unc.pdf > mod_unc.pdf
最後にあなたはそれを再圧縮します
pdftk mod_unc.pdf output myfile_modified.pdf compress
その気まぐれによると、時々それが機能する、時には機能しないという意味で、私はこのコマンドで中程度の成功しか収めていません。
Windows(おそらく仮想マシン)では、PDF-XChange Editorをインストールできます https://www.tracker-software.com/product/downloads/enduser/pdf-xchange-editor
無料版では、透かしを追加せずにテキストを削除できます(ただし、テキストを追加することはできません)(ソフトウェアの、ソフトウェアでさえ指示されます)。
いくつかのテキストを削除する必要があったため、sed
は時間と労力がかかりすぎ、sed
はウムラウトでは機能しませんでした。