ターミナルで次のコマンドを使用してPDFをTIFファイルに変換しました
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
次に、makebox
コマンドを実行しようとしました
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
次のエラーが発生しました:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
そしてそれがlibtiff
に関連するものであると仮定して、コマンドtesseract -v
を実行し、それが欠落していることを発見(または推測)しました
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
lib tiffをアンインストールして再インストールしても、同じ結果が得られます。ここで何が欠けているのかわかりません。アドバイスしてください!
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
コマンドの出力brew info leptonica
編集#1
GhostScript
コマンドを実行しようとすると同じエラーを返す、makebox
を使用してこのtiffファイルを作成しました。多分私が欠けている何か他のものがありますか?フォントサイズを50以上に設定しましたが、大丈夫ですか?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.Zip (〜4 MB)
編集#2
GhostScript
を使用して1ページのtifを作成しましたが、機能していませんか?
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.Zip (〜60 KB)
あなたはフォローしていると思います Michael Lissnerの投稿 Tesseractにカスタムフォントを追加します。
同じこと(convert
コマンド)を試してみたところ、どのアプリケーションでも開くことができない壊れたTIFFが表示されました。
そこで、GUIの代替を選択しました。私はテキストをScribusで作成し(文字間の間隔を広げることができたため)、ファイル --エクスポート --画像として保存]からTIFFとして直接エクスポートしました。メニュー。 300DPIの解像度を選択しました。
他に何を試すことができますか:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(その場合はすべてのページを変換します)あなたが遭遇するかもしれない他のどんな問題:
unicharset_extractor
およびmftraining
(または、パッケージが それらを含む である必要があるため、パスにありません)。