最初に、これが以前に尋ねられた場合はお詫びします-私は既存の投稿をしばらく検索しましたが、サポートを見つけることができませんでした。
Fedoraが複数ページの検索不可能なPDFをOCRし、このPDFをテキストレイヤーを含む新しいPDFファイルに変換するソリューションに興味があります。画像の上部。 Mac OSXまたはWindowsではAdobe Acrobatを使用できますが、Linux、特にFedoraにソリューションはありますか?
これ は解決策を説明しているようです-しかし、残念ながら、exact-imageを取得すると、すでに失われています。
Tesseractが検索可能なPDFも生成できるようになったことを知った後、次のスクリプトサンドイッチを見つけました。 http://www.tobias-elze.de/pdfsandwich/
依存関係をインストールした後(これは完全なリストではない可能性があります)
Sudo dnf install svn ocaml unpaper tesseract
ソースからコンパイルするためのスクリプトのガイドに従いました
ソースからコンパイル
pdfsandwichはオープンソースソフトウェア(ライセンス:GPL)です。ソースは、プロジェクトのWebサイトのダウンロードエリアから.tar.bz2パッケージとしてダウンロードするか、Subversionでチェックアウトできます。
svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich
システムにOCamlがインストールされている場合は、次のようにコンパイルしてインストールできます。
cd pdfsandwich
./configure
make
Sudo make install
これで実行できます
sandwich multipaged-non-searchable.pdf
検索可能なPDFになります。
PDFを変更しないため、pypdfocr
を使用するのが最善で最も簡単な方法です。 pypdfocrはpythonここにモジュールリンクです。
pypdfocr your_document.pdf
最後に別のyour_document_ocr.pdf
検索可能なテキストを使用して、希望する方法で。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。
コマンドはGUIを必要としないのでかなり簡単だと思います。多分pypdfocrのインストールはもう少し冗長です:
Sudo dnf -y install tesseract
pip install pypdfocr
pypdfocr
は2016年以降サポートされなくなり、メンテナンスされていないためにいくつかの問題に気づきました。 ocrmypdf
( module )は同様のジョブを実行し、次のように使用できます。
ocrmypdf in.pdf out.pdf
インストールするには:
pip install ocrmypdf
または
Sudo apt install ocrmypdf #ubuntu
Sudo dnf -y install ocrmypdf #Fedora
Ubuntuで利用できる簡単なツールは「ocrfeeder」で、元のドキュメントにOCRテキストをオーバーレイしたPDFを生成できます。 Tesseractと他のOCRエンジン(どちらかわからない)を利用し、画像の回転や「アンペーパー」なども提供します。
私も同じ問題を抱えていたので、週末にこれを書きました。試してみます;それはうまくいきます! tesseract
の単純なラッパーです。 pdftoppm
を使用してPDFを一連のTIFFファイルに変換し、次にtesseract
を使用してOCR(光学式文字認識)を実行し、 searchable PDF出力として。スクリプトが完了すると、すべての中間一時ファイルが自動的に削除されます。
ソースコード: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
pdf2searchablepdf
:2019年11月11日にUbuntu 18.04でテスト済み。
git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
Sudo apt update
Sudo apt install tesseract-ocr
pdf2searchablepdf mypdf.pdf
これで、検索可能なテキストを含むmypdf_searchable.pdfというPDFが作成されます。
できました。現在は完全にbashで記述されているため、python依存関係はありません。