web-dev-qa-db-ja.com

PDFからOCRを削除する方法

しばらくGoogleを検索してきましたが、質問に対する回答が見つかりません。

最近Adobe Acrobatでスキャンしたドキュメントに不要なOCRレイヤーが含まれています。 OCRedが適切に行われていないため、一部の情報を編集したいのですが、OCRは必要な情報を消去するようにしています。ファイルをTIFに変換しましたが、(非常に)大幅な品質の低下に気づきました。別のPDF=に印刷すると、テキストが保持されるか、画質が低下するということです。

私はこの問題をできるだけ早く解決するための助けに感謝します。

ありがとうございました。

14
Sanoo

Acrobat Pro DCでは、適切なコマンドは「隠し情報の削除」で、これは「保護」ツールと「編集」ツールの両方から利用できます。

コマンドを実行すると、非表示の情報が検索されるだけで、ドキュメントは変更されません。次に、削除する情報をAcrobatに通知する必要があります。この場合、結果ペインで[隠しテキスト]を選択し、[削除]ボタンをクリックして変更されたドキュメントを保存します。

6
user1125483

私はそれをJPEGにエクスポートし、次にJPEGからエクスポートすることで解決しました。これは、元はWordドキュメントで、PDFに変換されたドキュメントからのものです。 OCRはなくなりました。

1
rando cal

多くの実験を行った後、Adobe PDF Adob​​e Acrobatから印刷すると、OCRがなく、品質を損なうことなくドキュメントが印刷されることがわかりました(一見すると目立たない解像度が失われます)。

ただし、多くのサイトではこれが機能しないと主張しています。 Foxit ReaderやOneNoteなどの他のプリンターも試しましたが、品質が低下しました。 JPEGも同じでした。

走行距離は異なる場合がありますのでご注意ください。

注:私よりも良い答えを見つけるために、このスレッドを未回答としてマークしておきます。

1
Sanoo

(1年前...)

たとえば、ドキュメントがスキャンされ、PDF)に印刷されない場合は、Adobeで簡単に削除できます。

Document、Examine Documentを選択すると、隠しテキスト(OCR)を削除できます。

1
Fran

Acrobat Xでは、[保護]の下に、[すべてを削除]の[ドキュメントをサニタイズ]ボタンがありますが、表示されるもの(OCRのテキストレイヤーを含む)は、ドキュメントをフラット化されたビットマップに変換します。

1
Dave

Acrobat Proの場合:「非表示の情報を削除」(「保護」の下)を使用します。すべてを選択して実行、OCRがなくなった

1
jazzzz

これを行うためのツールを作成しました 無料PDF墨塗り 。画像をアップロードして墨消しをクリックすると、PDFがフラット化され、OCRが削除されます。必要に応じてドキュメントに編集マークを描画することもできます。

0
levinology