ディレクトリに多数のJPEGファイルがあり、それらをPDFに変換し、それらを連結して単一のドキュメントを作成したい。
これをどのように行うことができますか?
このプロセスは高速になるため、コマンドラインを使用することをお勧めします。
imagemagick
パッケージから、convert
コマンドを使用します。
convert *.jpg pictures.pdf
現在のフォルダー内のすべてのjpgを含む単一のpdfを取得します。
次を使用してIMをインストールします。
Sudo apt-get install imagemagick
ソース: stackoverflow
編集:画像に番号が付けられていない場合、画像は特定の順序になりません。 10個以上ある場合は、ファイル名の末尾にfilename01.jpg ... filename99.jpgなどを付ける必要があります。適切な順序付けには、先頭にゼロが必要です。 100個以上の001 ... 999がある場合。
convert `ls -1v` file.pdf
私のために働いた(しかし警告!圧縮をオフにして、結果のPDFは大きくなる!)
convert page1.jpg page2.jpg +compress file.pdf
あるいは:
convert -rotate 90 page\*.jpg +compress file.pdf
Ubuntuforums.orgの+compress
は、ハングしないようにするのに役立ちます。注:+ compressは圧縮をオフにします。 + compressオプションなしでは、その時点で作業していたマシンが「永遠に」ハングアップしたように見えました(見つけるのに永遠に待たなかった)。マイレージはかなり異なる場合があります! RTFM on imagemagick.org option -compress 、圧縮/ハングの問題が遅い場合は、-compress <type>を試して、何が機能するかを調べてください。
残念ながら、convert
は、PDFに「パック」する前に画質を変更します。したがって、品質の低下を最小限に抑えるには、元のjpg
をPDFに入れる方がよいため、img2pdf
を使用する必要があります。
私はこれらのコマンドを使用します:
このコマンドは、解像度または品質を損なうことなく、すべてのpdf
イメージからjpg
ファイルを作成します。
ls -1 ./*jpg | xargs -L1 -I {} img2pdf {} -o {} .pdf
このコマンドは、pdf
pagesを1つのドキュメントに連結します。
pdftk * .pdf cat出力combined.pdf
最後に、PDFのスキャン品質を変更しないOCRedテキストレイヤーを追加して、PDFを検索できるようにします。
pypdfocr combined.pdf
pypdfocr
を使用する代わりに:
ocrmypdfのcombined.pdfのcombined_ocr.pdf
LibreOffice Writerでjpgまたはpngファイルを開き、PDFとしてエクスポートします。
これがpdfをエクスポートする簡単な方法であることを願っています。
次のソリューションもImageMagickのconvert
に依存していますが、次の理由でもう少し洗練されています。
pdfimages -j file.pdf img
を使用して元の画像を再抽出できます。) 、これはPNGでのみ機能します。以下の@dma_kによるコメントを参照してください。手順:
次のように、すべての1ページPDFファイルをPDFtkと連結します。
pdftk *.pdf cat output out.pdf