web-dev-qa-db-ja.com

テキストを保持しながら、PDFドキュメントスキャンのグレースケールページの背景を削除するにはどうすればよいですか? (二値化)

私のPDFには、テキストの画像を含む600ページが含まれています。 2層があります。

  • レイヤー1:背景色画像

  • レイヤー2:テキスト画像

画像に示すように、合計PDFファイル内のすべての背景画像レイヤーを削除したいと思います。

enter image description here

ソフトウェア/ツールを教えてください。

enter image description here

8
Raghu G

概要

探しているのは、 スキャン調整npaper のようなツールです しきい値処理スペックル除去、ノイズ除去 =。どちらのツールもPDFファイルではなく画像を使用しますが、この回答の最後に記載されているツールを使用して、これらのアプリケーションが使用するさまざまな形式とPDFを簡単に変換できます。

ScanTailor

ビデオチュートリアル こちら を見つけることができます。より詳細なドキュメントは 公式wiki で入手できます。 白黒出力モードとフィルター設定 のページにおそらく最も興味があるでしょう。

紙なし

私はまだunpaperを使ったことがありません。私が理解していることから、ScanTailorよりもはるかに多くの機能を備えていますが、習得するのははるかに困難です。

GUIインターフェースはなく、コマンドラインスイッチに依存して作業を完了する必要があります。一方、これは、unpaperを使用した変換をスクリプトを使用して簡単に自動化できることを意味します。

スキャンを白黒に変換し、背景を削除する こちら に関するスクリプトの例を見つけることができます。


紙とスキャンテーラーを使用する際に役立つツール

ScanTailorとunpaper¹に関する完全なチュートリアルを作成するのに十分な時間がありませんが、.pdfとこれらのツールでサポートされている画像形式との間の変換に関するいくつかのポインターがあります。

  • pdfimages を使用して、PDFドキュメントを単一ページの.ppmファイルに変換し、unpaperで読み取ることができます。

    使用例:

    pdfimages *.pdf ./extracted-images

  • ScanTailorは.ppmファイルを入力として受け取りません。ロスレス.pngfirstなどの別の形式に変換する必要があります。 mogrifyimagemagickツールスイートのうち、これを行うことができます。

    使用例:

    mogrify -format png *.ppm

  • ScanTailorおよびunpaperの出力形式は、単一ページの.tiffファイルです。それらを.pdfに戻すには、 tiffcp および tiff2pdf を使用することをお勧めします。

    使用例:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
    

インストール

このコマンドは、上記のすべてのツールをインストールします。

Sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹:これを読んでいる人には、ScanTailorやunpaperに基づいたより広範な回答を自由に編集してください。

8
Glutanimate

多分 Master PDF editor があなたを助けることができますが、600ページにわたってこれを自動的に行うことはとにかく見つかりませんでした。

1
Presbitero

私は非常に簡単な解決策を見つけました:

  • gscan2pdfをインストールします。

  • gscan2pdfを開き、PDFをインポートします。

  • ツール->しきい値。デフォルトでは80%で十分でした。

  • PDFを別の場所に保存します。

1
Noam