GIGANTIC .TIFファイルがあります。
数日前に本をスキャンしましたが、誤って複数ページの.TIFとしてスキャンしました。もっと使いやすい.PDFファイルにしたいのです。
これをどのように行うことができるか考えていますか?
(Jonathan Ben-Avrahamによって指摘されたようにOCRを介してテキストを検索可能にせずに)ファイル形式を変換するだけで問題がなければ、これは ImageMagick パッケージのconvert
の完璧なタスクです(利用可能)さまざまなプラットフォーム:Win、Linux、Mac)。
そのコマンドを使用して、マルチページTIFFファイルを変換するだけです
convert multi-page.tif book.pdf
ただし、-compress
パラメータを使用する必要があります。 24ビット色のTIFがある場合、LZW
(ロスレス)またはJPEG
(ロッシー)を使用できます。
convert -compress LZW multi-page.tif book.pdf
TIFFが白黒の場合(必ず、1ビットの色深度でのみ保存されることを確認してください)、通常は-compress Fax
を使用します。
5ページのサンプルファイルの例を以下に示します。テキストがいくつか含まれています。圧縮アルゴリズムの実際の比率は、もちろんファイルの内容によって異なります。
24bit JPEG: 1294kB
24bit LZW: 1759kB
1bit Fax: 135kB
その変換後も、OCRツール(Adobe Acrobat Proなど)を実行して、テキストを検索およびコピー可能にすることができます。
TIFF(タグ付き画像ファイル形式)は、画像向けのピクセル指向の形式です。 TIFFファイルから文字データだけを取得するには、OCR(光学式文字認識)プログラムを使用する必要があります。すべてのOCRプログラムにはエラー率があります。ページの形式(ヘッダー、フッター、セクション見出しなど)も、OCRが文字を正確に推測する機能に影響します。
言語、特に書記体系とフォントもOCRの精度に影響します。本に合字の珍しい非西洋フォントが含まれている場合、OCR出力がうまくいかない可能性はゼロに近いです。
本が主にテキストではない場合、たとえば、重要なスクリーンショットやその他の画像が多数含まれている本の場合、OCRは役に立ちません。
使用しているOSによっては、いくつかのオープンソースOCRプログラムが利用できます。 Googleドライブには無料のOCRサービスがあります。 WMMV。
スキャンした元の本が紙の形式であると仮定すると、TIFFはあらゆるイベントで実行できる最高のものです。 TIFFファイルを圧縮することで、ドキュメントのサイズを管理しやすくすることができます。さまざまなレベルの圧縮でJPEG圧縮を試して、読みやすさに対してドキュメントサイズを最適化します。