複数ページの.TIFFファイルをPDFに変換するにはどうすればよいですか？

Question

GIGANTIC .TIFファイルがあります。

数日前に本をスキャンしましたが、誤って複数ページの.TIFとしてスキャンしました。もっと使いやすい.PDFファイルにしたいのです。

これをどのように行うことができるか考えていますか？

mpy · Answer

（Jonathan Ben-Avrahamによって指摘されたようにOCRを介してテキストを検索可能にせずに）ファイル形式を変換するだけで問題がなければ、これは ImageMagick パッケージのconvertの完璧なタスクです（利用可能）さまざまなプラットフォーム：Win、Linux、Mac）。

そのコマンドを使用して、マルチページTIFFファイルを変換するだけです

convert multi-page.tif book.pdf

ただし、-compressパラメータを使用する必要があります。 24ビット色のTIFがある場合、LZW（ロスレス）またはJPEG（ロッシー）を使用できます。

convert -compress LZW multi-page.tif book.pdf

TIFFが白黒の場合（必ず、1ビットの色深度でのみ保存されることを確認してください）、通常は-compress Faxを使用します。

5ページのサンプルファイルの例を以下に示します。テキストがいくつか含まれています。圧縮アルゴリズムの実際の比率は、もちろんファイルの内容によって異なります。

24bit JPEG: 1294kB 24bit LZW: 1759kB 1bit Fax: 135kB

その変換後も、OCRツール（Adobe Acrobat Proなど）を実行して、テキストを検索およびコピー可能にすることができます。

Jonathan Ben-Avraham · Answer

TIFF（タグ付き画像ファイル形式）は、画像向けのピクセル指向の形式です。 TIFFファイルから文字データだけを取得するには、OCR（光学式文字認識）プログラムを使用する必要があります。すべてのOCRプログラムにはエラー率があります。ページの形式（ヘッダー、フッター、セクション見出しなど）も、OCRが文字を正確に推測する機能に影響します。

言語、特に書記体系とフォントもOCRの精度に影響します。本に合字の珍しい非西洋フォントが含まれている場合、OCR出力がうまくいかない可能性はゼロに近いです。

本が主にテキストではない場合、たとえば、重要なスクリーンショットやその他の画像が多数含まれている本の場合、OCRは役に立ちません。

使用しているOSによっては、いくつかのオープンソースOCRプログラムが利用できます。 Googleドライブには無料のOCRサービスがあります。 WMMV。

スキャンした元の本が紙の形式であると仮定すると、TIFFはあらゆるイベントで実行できる最高のものです。 TIFFファイルを圧縮することで、ドキュメントのサイズを管理しやすくすることができます。さまざまなレベルの圧縮でJPEG圧縮を試して、読みやすさに対してドキュメントサイズを最適化します。