PDFはスキャンされた画像の優れたアーカイブ形式ですが、Acrobatではドキュメントのテキストレイヤー(コピーして貼り付けることができる部分)を編集できず、生のOCRだけが残ります。テキストレイヤーを編集できるフリーウェアの代替品はありますか?
PDFに変換されたスキャンされたドキュメントには、最初はtextが含まれていません。各ページは、フルページのピクセル画像。この画像には、人間の脳によって文字や「テキスト」として識別される、文字の形状と同じように見える領域が含まれる場合と含まれない場合があります。
プログラム的には、テキストではなく、ピクセルのみです。
スキャンされた画像から派生したPDFに実際の何かを挿入するためにtext、 OCRプロセス。これにより、addコンテンツの追加レイヤーがPDFページに追加されます。その追加レイヤーにはすべてが含まれます。ピクセル形状の背後にある識別された(または誤識別された)文字は、実際のフォントからの実際のグリフとして識別されます。ただし、これらの実際のテキスト文字には特別なPDFマークアップ、ビューアによって視覚的にレンダリングされないようにタグ付け(または印刷時)。それらの存在は、searching(またはハイライト)テキスト(またはAcrobat Text Touchup Toolがアクティブなときに画像から「n」貼り付け領域をコピーしようとした場合)。
だから、あなたの本当の質問はこれですか: "スキャンしたPDFドキュメントのOCR結果は最適ではありません。すべての文字が正しく識別されているわけではありません。編集したいOCRの結果を改善するための隠しテキスト。無料のツールでそれを行うにはどうすればよいですか? "?
編集:私は通常Acrobatを使用していません。しかし、ちょうど今、同僚のPCで9.1.3Professionalバージョンを見る機会がありました。
私が最初にチェックしたこと:AcroabatがOCRされたテキストの編集を許可していないというのは本当に本当ですか?
回答:いいえ、正しくありません。Acrobatの組み込みOCRエンジンを使用して、ランダムにスキャンしたドキュメントのテキストをキャプチャし、Googleで検索してWebからダウンロードすることができました。その後、このテキストは、高度な編集メニューエントリから利用できるタッチアップテキストツールで完全に編集可能になりました。
手順:
無料のPDFエディターは非常に不足しています。
私が知っている唯一の無料のものは OpenOffice with Sun PDF Import Extension です。
Techsupportalertの記事から A PDFファイルは100%のレイアウト精度で編集できます :
Sun PDF Import ExtensionOpenOffice with Sun PDF Import Extensionは、ハイブリッドPDF/ODFファイルを生成します。作成されるファイルの拡張子は、通常の.pdfファイルになります。それ自体はPDFファイルであり、Adobe Reader、PDF-XChange Viewer、FoxitReaderなどのPDFビューアで表示できます。
さらに、ソースODFファイルが含まれています。このファイルはOpenOfficeでPDFファイルから直接開いて、レイアウト、ブックマーク、ハイパーリンク、またはフォーマットを失うことなく編集できます。
ハイブリッドPDFファイルを作成するには、Sun PDF Import ExtensionをインストールしてOpenOfficeを実行し、[ファイル]を選択し、[PDFとしてエクスポート]を選択します。PDFオプションウィンドウスクリーンショットが開くように、「ハイブリッドファイルの作成」にチェックマークを付け、「エクスポート」をクリックします。
このハイブリッドPDFファイルは、2つを1つに結合しているため、2つの別々のファイル形式を維持する手間が省けます。 PDFリーダーで共有および表示する準備ができていますが、通常のOpenOfficeファイルと同じように完全に編集するために開くことができます。通常のPDFファイルと区別するために、「-odf.pdf」で終わるハイブリッドファイルに名前を付けることをお勧めします。
Sun PDF Import Extensionは、OpenOffice.org(3.0以降)またはStarOffice9と互換性があります。
「テキストストリーム」とは、PDFのテキストデータのことです。わからない。その場合は、標準のクリップボードとテキストのみのエディターを使用します。列編集機能があるため、KEDITを使用してデータをキャプチャし、編集します。問題は、これを使用するとフォーマットが失われ、テーブルを使用するとデータの順序が乱れることがあることです。ただし、単純なキャプチャの場合は機能します。