テキストを保持しながら、PDFドキュメントスキャンのグレースケールページの背景を削除するにはどうすればよいですか？（二値化）

Question

私のPDFには、テキストの画像を含む600ページが含まれています。 2層があります。

画像に示すように、合計PDFファイル内のすべての背景画像レイヤーを削除したいと思います。

enter image description here

ソフトウェア/ツールを教えてください。

enter image description here

Glutanimate · Answer

概要

探しているのは、スキャン調整や npaper のようなツールですしきい値処理、スペックル除去、ノイズ除去 =。どちらのツールもPDFファイルではなく画像を使用しますが、この回答の最後に記載されているツールを使用して、これらのアプリケーションが使用するさまざまな形式とPDFを簡単に変換できます。

ScanTailor

ビデオチュートリアルこちらを見つけることができます。より詳細なドキュメントは公式wiki で入手できます。白黒出力モードとフィルター設定のページにおそらく最も興味があるでしょう。

紙なし

私はまだunpaperを使ったことがありません。私が理解していることから、ScanTailorよりもはるかに多くの機能を備えていますが、習得するのははるかに困難です。

GUIインターフェースはなく、コマンドラインスイッチに依存して作業を完了する必要があります。一方、これは、unpaperを使用した変換をスクリプトを使用して簡単に自動化できることを意味します。

スキャンを白黒に変換し、背景を削除するこちらに関するスクリプトの例を見つけることができます。

紙とスキャンテーラーを使用する際に役立つツール

ScanTailorとunpaper¹に関する完全なチュートリアルを作成するのに十分な時間がありませんが、.pdfとこれらのツールでサポートされている画像形式との間の変換に関するいくつかのポインターがあります。

pdfimages を使用して、PDFドキュメントを単一ページの.ppmファイルに変換し、unpaperで読み取ることができます。

使用例：

pdfimages *.pdf ./extracted-images
ScanTailorは.ppmファイルを入力として受け取りません。ロスレス.pngfirstなどの別の形式に変換する必要があります。 mogrify imagemagickツールスイートのうち、これを行うことができます。

使用例：

mogrify -format png *.ppm
ScanTailorおよびunpaperの出力形式は、単一ページの.tiffファイルです。それらを.pdfに戻すには、 tiffcp および tiff2pdf を使用することをお勧めします。

使用例：
```
tiffcp *.tiff all.tiff tiff2pdf -F -p A4 -z -o Document.pdf all.tiff 
```

インストール

このコマンドは、上記のすべてのツールをインストールします。

Sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹：これを読んでいる人には、ScanTailorやunpaperに基づいたより広範な回答を自由に編集してください。

Presbitero · Answer

多分 Master PDF editor があなたを助けることができますが、600ページにわたってこれを自動的に行うことはとにかく見つかりませんでした。

Noam · Answer

私は非常に簡単な解決策を見つけました：

テキストを保持しながら、PDFドキュメントスキャンのグレースケールページの背景を削除するにはどうすればよいですか？ （二値化）