Tesseract OCR：サポートされていない画像タイプ

Question

ターミナルで次のコマンドを使用してPDFをTIFファイルに変換しました

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

次に、makeboxコマンドを実行しようとしました

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

次のエラーが発生しました：

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

そしてそれがlibtiffに関連するものであると仮定して、コマンドtesseract -vを実行し、それが欠落していることを発見（または推測）しました

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

lib tiffをアンインストールして再インストールしても、同じ結果が得られます。ここで何が欠けているのかわかりません。アドバイスしてください！

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

コマンドの出力brew info leptonica here

編集＃1

GhostScriptコマンドを実行しようとすると同じエラーを返す、makeboxを使用してこのtiffファイルを作成しました。多分私が欠けている何か他のものがありますか？フォントサイズを50以上に設定しましたが、大丈夫ですか？

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.Zip （〜4 MB）

編集＃2

GhostScriptを使用して1ページのtifを作成しましたが、機能していませんか？

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.Zip （〜60 KB）

Cornelius · Accepted Answer

あなたはフォローしていると思います Michael Lissnerの投稿 Tesseractにカスタムフォントを追加します。

同じこと（convertコマンド）を試してみたところ、どのアプリケーションでも開くことができない壊れたTIFFが表示されました。

そこで、GUIの代替を選択しました。私はテキストをScribusで作成し（文字間の間隔を広げることができたため）、ファイル --エクスポート --画像として保存]からTIFFとして直接エクスポートしました。メニュー。 300DPIの解像度を選択しました。

他に何を試すことができますか：

GIMPはTIFFとして保存できるPDFを開きます
Ghostscript：gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>（その場合はすべてのページを変換します）

あなたが遭遇するかもしれない他のどんな問題：

Linux：Tesseractのリポジトリバージョン（少なくともUbuntu）をインストールした場合、必要な実行可能ファイルはありません：unicharset_extractorおよびmftraining（または、パッケージがそれらを含むである必要があるため、パスにありません）。