Adobe Acrobat(Pro DCそれが重要な場合)を使用しています)では、OCRには3つのオプションがあります。
これら3つのオプションの違いは何ですか?
特に、出力ファイルのサイズを決定するものは何ですか?現在、私は1番目と3番目の両方のオプションを実行していますが、一方が大きい場合と他方が大きい場合があります(違いが大きい場合があります)。
OCR処理の品質、ファイルサイズ、速度の間のトレードオフは何ですか(ある場合)?
Adobeヘルプの記事 紙のドキュメントをPDFにスキャンする 、セクション「テキストの認識-一般設定」ダイアログボックスでは、スキャンモードを次のように定義しています。
検索可能な画像
テキストが検索および選択可能であることを確認します。このオプションは、元の画像を保持し、必要に応じてデスキューし、その上に非表示のテキストレイヤーを配置します。この同じダイアログボックスで[ダウンサンプル画像]を選択すると、画像をダウンサンプリングするかどうか、およびどの程度ダウンサンプリングするかが決まります。
検索可能な画像(正確)
テキストが検索および選択可能であることを確認します。このオプションは、元の画像を保持し、その上に非表示のテキストレイヤーを配置します。元の画像を最大限に忠実に再現する必要がある場合に推奨されます。
編集可能なテキストと画像
オリジナルに非常に近い新しいカスタムフォントを合成し、低解像度のコピーを使用してページの背景を保持します。
ダウンサンプルTo
OCRが完了した後、カラー、グレースケール、およびモノクロ画像のピクセル数を減らします。適用するダウンサンプリングの程度を選択します。オプションの数が多いほど、ダウンサンプリングが少なくなり、高解像度のPDFが生成されます。
これらのオプションが出力ファイルサイズに与える影響を分析します。
すべてのオプションは、おそらく大きなオブジェクトである画像を保持します。
Searchable Imageは画像を回転させます。これにより、Adobeが内部で使用している画像の再エンコード方法に応じて、サイズが変更されて大きくなったり小さくなったりする場合があります。
ダウンサンプルToは画像の解像度を下げてサイズを減らすことができますが、取得(または失われる)されるスペースの量は、Adobeが内部的に使用する再サンプル方法に依存します。
編集可能なテキストと画像は新しいフォントを合成し、それはPDFに含まれ、出力サイズに数十キロバイトを追加します。
全体として、最小のPDFを作成する明確な方法はありません。獲得(または喪失)する量は、OCR処理される画像と、アドビがそれらの画像をどれだけ効率的に再圧縮できるかに依存します。
スペースを節約することが目的の場合は、編集可能なテキストと画像を使用することをお勧めしますが、この Adobe Acrobatの記事 で説明されているように、[設定]で指定します。カスタムフォントを回避する可能性のある「使用可能なシステムフォントを使用してください」。 OCRされたテキストで十分な場合は、画像を削除することもできます。