ドキュメントのスキャン画像を含むPDFを持っています。このPDFの内容をイメージとして保存して、.jpg、.png、および.gifタイプのファイルのみを受け入れるOCRプログラムで実行できるようにしたいと考えています。
このPDFをこれらの画像形式の1つに保存/変換するにはどうすればよいですか?
編集:これを行うことがわかった1つの方法は、各ページをクリックすることです。クリップボードにコピー。 Paint.netに貼り付けて保存します。ただし、Acrobat Readerで一度に選択できるページは1つだけなので、これは面倒です。
pooryorickの回答 に細心の注意を払ってください。彼は sleskeの回答 が実際にはこの特定の問題に対してはるかに良い回答であることを指摘しています。
GhostScript を使用します。このコマンドは私にとってはうまくいきます:
gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf
複数のpng疑似デバイスがあり、色深度が異なります:pngmono、pnggray、png16、png256、png16m、pngalpha。自分に最も適したものを選択してください。
Jpegを使用することもできますが、ディスク領域の問題がない限り、OCRで管理できる限りの高品質が必要ですが、これはjpegではありません。
GhostScriptはgifをサポートしていませんが、png256をサポートしているのに、なぜそれが必要なのか想像できません。
インストール Imagemagick 。コマンドウィンドウまたはターミナルを開きます。
convert myfile.pdf myfile.jpg
出力は、pdf、test-0.jpg、test-1.jpgなどの各ページに1つのjpgファイルになります。
pdfimages
からXpdf tools( site of XpdfReader から入手可能)もあります。 =)。 PDF=ページ全体を画像に変換するのではなく、PDFから埋め込み画像を抽出します。
これは、PDFにテキストと画像が含まれていて、画像のみが必要な場合に便利です。また、画像を元の形式で抽出するため、品質を損なうことはありません(ページ全体をレンダリングしてから、たとえばJPEGに変換します。ニーズによっては、これが役立つ場合があります。
簡単な使い方:
pdfimages -j -list mydocument.pdf mydocument-images
これにより、入力ファイルmydocument.pdf
が読み取られ、すべての画像が抽出されて、mydocument-images-0000.jpg
、mydocument-images-0001.jpg
などの名前の個別のファイルに書き込まれます。
オプション-j
を指定すると、埋め込まれたJPEG圧縮画像がPBM/PGM/PPMファイル(非圧縮で巨大なファイル)ではなく、JPEGファイルとして書き込まれます。画像がPDF入力ファイルに保存された方法である場合、画像は引き続きPBM/PGM/PPMファイルとして書き込まれる可能性があることに注意してください。
これは、Adobeリーダーを使用して行うことができます。
Pdfimagesに言及する回答を除いて、他のすべての回答は、それらのソリューションが実際に埋め込まれた画像をトランスコードすることについて言及していません。つまり、これらのソリューションは、元の画像を単に抽出するのではなく、プロセス中に画像を損なう可能性があるように変更します。 pdfimagesのみが元の画像を抽出します。これは、Ghostscript、Imagemagick、Adobe Reader、PDFFill、PDF Xchange Viewer、OS X Preview、およびその他のほとんどのPDFソフトウェアに当てはまります。
PDFill PDF Tools は、おそらくWindowsでPDFを画像に変換する最も簡単な方法です。すべてのページをPDFワンショットで画像を分割します。無料で利用できる他の多くの機能もあります。これらの機能は、他のPDFコマーシャル版または「Pro」版を購入した場合にのみ利用できます) 。
下のスクリーンショットの「PDF to Images)」ボタン(ボタン#10)を使用します。
画像を1つの非常に高い画像に連結する必要があるため、OCRプログラムに1つのファイルをフィードするだけでよい場合は、 IrfanView を使用できます。
OSタグを含めなかったので、OSXの回答を含めます。
PDFはデフォルトでPreview.appで開きます。これにより、File -> Save-As
:
また PDF Xchange Viewer(無料) はファイルにエクスポートします。ファイル→エクスポート→画像にエクスポート。
それだけでなく、私はそれが最高の無料だと思いますPDF Windows用のビューア、、そしていくつかの素晴らしいマークアップ機能があります。私はAdobe Acrobatのライセンスを持っていますが、大規模な編集を行う場合を除いて、これを好みます。
(非フリー)Acrobat Professionalはこれを行います:
詳細設定->ドキュメント処理->すべての画像をエクスポート...
ファイルが5MB未満で、プライバシー/機密性について心配していない場合は、 http://www.go2convert.com/ の便利なオンラインサービスで、多くのグラフィック変換を実行できます。 (pdfからjpegを含む)