web-dev-qa-db-ja.com

複数ページの.TIFFファイルをPDFに変換するにはどうすればよいですか?

GIGANTIC .TIFファイルがあります。

数日前に本をスキャンしましたが、誤って複数ページの.TIFとしてスキャンしました。もっと使いやすい.PDFファイルにしたいのです。

これをどのように行うことができるか考えていますか?

8
user170220

(Jonathan Ben-Avrahamによって指摘されたようにOCRを介してテキストを検索可能にせずに)ファイル形式を変換するだけで問題がなければ、これは ImageMagick パッケージのconvertの完璧なタスクです(利用可能)さまざまなプラットフォーム:Win、Linux、Mac)。

そのコマンドを使用して、マルチページTIFFファイルを変換するだけです

convert multi-page.tif book.pdf

ただし、-compressパラメータを使用する必要があります。 24ビット色のTIFがある場合、LZW(ロスレス)またはJPEG(ロッシー)を使用できます。

convert -compress LZW multi-page.tif book.pdf

TIFFが白黒の場合(必ず、1ビットの色深度でのみ保存されることを確認してください)、通常は-compress Faxを使用します。

5ページのサンプルファイルの例を以下に示します。テキストがいくつか含まれています。圧縮アルゴリズムの実際の比率は、もちろんファイルの内容によって異なります。

24bit JPEG:  1294kB
24bit LZW:   1759kB
1bit  Fax:    135kB

その変換後も、OCRツール(Adobe Acrobat Proなど)を実行して、テキストを検索およびコピー可能にすることができます。

16
mpy

TIFF(タグ付き画像ファイル形式)は、画像向けのピクセル指向の形式です。 TIFFファイルから文字データだけを取得するには、OCR(光学式文字認識)プログラムを使用する必要があります。すべてのOCRプログラムにはエラー率があります。ページの形式(ヘッダー、フッター、セクション見出しなど)も、OCRが文字を正確に推測する機能に影響します。

言語、特に書記体系とフォントもOCRの精度に影響します。本に合字の珍しい非西洋フォントが含まれている場合、OCR出力がうまくいかない可能性はゼロに近いです。

本が主にテキストではない場合、たとえば、重要なスクリーンショットやその他の画像が多数含まれている本の場合、OCRは役に立ちません。

使用しているOSによっては、いくつかのオープンソースOCRプログラムが利用できます。 Googleドライブには無料のOCRサービスがあります。 WMMV。

スキャンした元の本が紙の形式であると仮定すると、TIFFはあらゆるイベントで実行できる最高のものです。 TIFFファイルを圧縮することで、ドキュメントのサイズを管理しやすくすることができます。さまざまなレベルの圧縮でJPEG圧縮を試して、読みやすさに対してドキュメントサイズを最適化します。