私のPDFには、テキストの画像を含む600ページが含まれています。 2層があります。
レイヤー1:背景色画像
レイヤー2:テキスト画像
画像に示すように、合計PDFファイル内のすべての背景画像レイヤーを削除したいと思います。
ソフトウェア/ツールを教えてください。
概要
探しているのは、 スキャン調整 や npaper のようなツールです しきい値処理 、 スペックル除去、ノイズ除去 =。どちらのツールもPDFファイルではなく画像を使用しますが、この回答の最後に記載されているツールを使用して、これらのアプリケーションが使用するさまざまな形式とPDFを簡単に変換できます。
ScanTailor
ビデオチュートリアル こちら を見つけることができます。より詳細なドキュメントは 公式wiki で入手できます。 白黒出力モードとフィルター設定 のページにおそらく最も興味があるでしょう。
紙なし
私はまだunpaper
を使ったことがありません。私が理解していることから、ScanTailorよりもはるかに多くの機能を備えていますが、習得するのははるかに困難です。
GUIインターフェースはなく、コマンドラインスイッチに依存して作業を完了する必要があります。一方、これは、unpaper
を使用した変換をスクリプトを使用して簡単に自動化できることを意味します。
スキャンを白黒に変換し、背景を削除する こちら に関するスクリプトの例を見つけることができます。
紙とスキャンテーラーを使用する際に役立つツール
ScanTailorとunpaper¹に関する完全なチュートリアルを作成するのに十分な時間がありませんが、.pdf
とこれらのツールでサポートされている画像形式との間の変換に関するいくつかのポインターがあります。
pdfimages
を使用して、PDFドキュメントを単一ページの.ppm
ファイルに変換し、unpaper
で読み取ることができます。
使用例:
pdfimages *.pdf ./extracted-images
ScanTailorは.ppm
ファイルを入力として受け取りません。ロスレス.png
firstなどの別の形式に変換する必要があります。 mogrify
imagemagick
ツールスイートのうち、これを行うことができます。
使用例:
mogrify -format png *.ppm
ScanTailorおよびunpaperの出力形式は、単一ページの.tiff
ファイルです。それらを.pdf
に戻すには、 tiffcp
および tiff2pdf
を使用することをお勧めします。
使用例:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
インストール
このコマンドは、上記のすべてのツールをインストールします。
Sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹:これを読んでいる人には、ScanTailorやunpaperに基づいたより広範な回答を自由に編集してください。
多分 Master PDF editor があなたを助けることができますが、600ページにわたってこれを自動的に行うことはとにかく見つかりませんでした。
私は非常に簡単な解決策を見つけました:
gscan2pdf
をインストールします。
gscan2pdf
を開き、PDFをインポートします。
ツール->しきい値。デフォルトでは80%で十分でした。
PDFを別の場所に保存します。