web-dev-qa-db-ja.com

PDFファイルから背景画像を抽出しますか?

私が働いている建物の地図を含むPDFファイルがあります。ここに:

http://www.libsys.und.edu/dev/FloorPlans_All.pdf

元のソースファイルが失われ、マップ画像を抽出するように求められました。できれば上にオーバーレイされたテキストとアイコンなしでそのうちの。これは厄介な困難であることが証明されています。

これまで、次のGUIプログラムを試しました。

  • Adobe Reader:テキストは選択できますが、背景画像は選択できません
  • FoxIt PDFビューア:テキストは選択できますが、背景画像は選択できません
  • Ubuntu 10.10のXPDF:mesはテキストを選択できますが、背景画像は選択できません

また、次のコマンドラインプログラム:

  • pdfimages:バスルームを示すアイコンを抽出しますが、背景画像は抽出しません
  • pdftohtml:pdfimagesと同じですが、マークアップが不十分なHTMLドキュメントになります
  • pdfextract:pdfimagesと同じ
  • 変換:画像は正常に保存されましたが、テキストが焼き付けられています

PDFをテキストエディタで手動で開き、ストリームオブジェクトを新しいファイルに貼り付けて、.jpg、.png、または.bmp拡張子で保存することで抽出しようとしました( PDFファイルの内部構造について私がほとんど知らないことを考えると、これが機能しなかったのは当然のことです。

だから...テキストやアイコンも取得せずに、このことから地図画像を取得する方法はありますか?

8
Will Martin

XPDFライブラリは、LinuxおよびWindowsの場合は http://www.foolabs.com/xpdf/download.html からダウンロードできます。次に、pdfimages -j input.pdf outputを実行すると、output-000.jpgoutput-001.jpgなどが表示されます。また、 http://linuxcommand.org/man_pages/pdfimages1.html を確認してください。より多くの使用オプション。

7
mybluevan

さて、これを5分間いじった後、私の分析では、PDFは私が当初考えていたよりもさらに奇妙であり、それは何かを言っています。

予算はわかりませんが、Acrobat Pro Extended9では次のものを使用できます。

A.ツール、高度な編集、タッチアップテキストツール

-Select All
-Right click, Properties
-Text tab
-Select a standard font (e.g. Arial), close
-Hit Delete

B.ツール、高度な編集、タッチアップオブジェクトツール

-オブジェクトを選択し(すべてではありませんが、ほとんどを取得できます(たとえば、学生のコンピューターのアイコンを選択できません)、削除します

簡単なクリーンアップ後のページ1は次のようになります: http://dl.dropbox.com/u/7434256/p1test.pdf

2
Craig H

CraigHによって作成されたPDFを取得し、Ghostscriptを介して実行して少し最適化します。Windowsのコマンドラインは次のとおりです。

gswin32c.exe ^
   -o p1test-gs-optimized.pdf ^
   -sDEVICE=pdfwrite ^
   -dPDFSETTIINGS=/prepress ^
    p1test.pdf

Linux/Unix/Mac OS Xでは、次のことを行います。

gs \
   -o p1test-gs-optimized.pdf \
   -sDEVICE=pdfwrite \
   -dPDFSETTIINGS=/prepress \
    p1test.pdf

これにより、コンテンツを失うことなく、ファイルのサイズが3.000kByteから約60kByteに減少します。次に、それをInkscape(またはInDesign、Illustratorなど)にインポートする方がはるかに高速です。

1
Kurt Pfeifle

... Photoshopを試すことができます。それはPDFを読み取り、それはPSで発生し、おそらくまだレイヤーを持っている可能性があります...しかし、それは非常に長いショットです。

1
aart12

Linux環境では、pdfmodを使用してすべての画像を一度に抽出しました。 https://wiki.gnome.org/Apps/PdfMod を参照するか、Ubuntuユーザーの場合は https://apps.ubuntu.com/cat/applications/pdfmod/ を参照してください。

Ubuntuにダウンロードしてインストールするには、Sudo apt-get install pdfmodと入力するだけで十分です。

  • Pdfmod GUIを起動します(ダッシュボードまたはコマンドラインターミナルでpdfmodと入力します)
  • PDFドキュメントを開く
  • すべてのページ(または画像を抽出するページ)を選択します
  • [編集]メニュー項目には、選択した範囲内で抽出できる画像をできるだけ多く抽出するオプションが表示されます(export n images、nは適切な数)。このコマンドにアクセスするには、選択範囲にマウスを置いてローカルメニューをアクティブにします(右クリックで右利きの場合)。
  • これを進めると、画像を保存する場所を選択する新しいウィンドウが開きます。

お役に立てれば。

0
XavierStuvw