web-dev-qa-db-ja.com

Tesseract OCR:サポートされていない画像タイプ

ターミナルで次のコマンドを使用してPDFをTIFファイルに変換しました

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

次に、makeboxコマンドを実行しようとしました

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

次のエラーが発生しました:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

そしてそれがlibtiffに関連するものであると仮定して、コマンドtesseract -vを実行し、それが欠落していることを発見(または推測)しました

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

lib tiffをアンインストールして再インストールしても、同じ結果が得られます。ここで何が欠けているのかわかりません。アドバイスしてください!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

コマンドの出力brew info leptonica here

編集#1

GhostScriptコマンドを実行しようとすると同じエラーを返す、makeboxを使用してこのtiffファイルを作成しました。多分私が欠けている何か他のものがありますか?フォントサイズを50以上に設定しましたが、大丈夫ですか?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.Zip (〜4 MB)

編集#2

GhostScriptを使用して1ページのtifを作成しましたが、機能していませんか?

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.Zip (〜60 KB)

5
Nina

あなたはフォローしていると思います Michael Lissnerの投稿 Tesseractにカスタムフォントを追加します。

同じこと(convertコマンド)を試してみたところ、どのアプリケーションでも開くことができない壊れたTIFFが表示されました。

そこで、GUIの代替を選択しました。私はテキストをScribusで作成し(文字間の間隔を広げることができたため)、ファイル --エクスポート --画像として保存]からTIFFとして直接エクスポートしました。メニュー。 300DPIの解像度を選択しました。

他に何を試すことができますか:

  • GIMPはTIFFとして保存できるPDFを開きます
  • Ghostscript:gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(その場合はすべてのページを変換します)

あなたが遭遇するかもしれない他のどんな問題:

  • Linux:Tesseractのリポジトリバージョン(少なくともUbuntu)をインストールした場合、必要な実行可能ファイルはありません:unicharset_extractorおよびmftraining(または、パッケージが それらを含む である必要があるため、パスにありません)。
3
Cornelius