web-dev-qa-db-ja.com

PDFからテキストを削除します

削除したい各ページにいくつかのテキストを含むPDFファイルがあります。

テキストは正規表現と一致しており、PDFの1つのブロックに入っていると思います。

Pdfeditを使用してGUIでテキストを選択および削除しましたが、ターミナルからこれを行う方法を探していました。

13
DrYap

pdftkを試すことはできますが、フォントに問題があるため(私は信じています)、ほんのわずかな時間しか機能しません。

これは次のように機能します。最初にPDFファイルを解凍する必要があります。

  pdftk myfile.pdf output unc.pdf uncompress

次に、それを変更します

  sed 's/oldstring/newstring/g' < unc.pdf > mod_unc.pdf

最後にあなたはそれを再圧縮します

 pdftk mod_unc.pdf output myfile_modified.pdf compress

その気まぐれによると、時々それが機能する、時には機能しないという意味で、私はこのコマンドで中程度の成功しか収めていません。

10
MariusMatutiae

Windows(おそらく仮想マシン)では、PDF-XChange Editorをインストールできます https://www.tracker-software.com/product/downloads/enduser/pdf-xchange-editor

無料版では、透かしを追加せずにテキストを削除できます(ただし、テキストを追加することはできません)(ソフトウェアの、ソフトウェアでさえ指示されます)。

いくつかのテキストを削除する必要があったため、sedは時間と労力がかかりすぎ、sedはウムラウトでは機能しませんでした。

出典: https://de.wikipedia.org/wiki/Benutzer:JoKalliauer/PDF

1
JoKalliauer