私はまだTesseract OCRに慣れていないので、スクリプトで使用した後、テキストを抽出しようとした画像のエラー率が比較的大きいことに気付きました。 Tesseractトレーニングに出くわしました。これは、使用する特定のフォントのエラー率を減らすことができると思われます。私はWebサイト( http://ocr7.com/ )に出会いました。これは、指定したフォントのすべてのトレーニングを行うAnylineのツールです。それで、私は.traineddataファイルを受け取りましたが、それをどうするかはよくわかりません。このファイルが機能するために私がしなければならないことを誰かが説明できますか?または、Tesseractトレーニングを手動で行う方法を学ぶ必要があります。AnylineのWebサイトによると、1日かかる場合があります。前もって感謝します。
まだこれを読んでいる人は、このツールを使用して、必要なフォントのトレーニング済みデータファイルを取得できます。その後、tessdataフォルダー内のtraineddataファイルを移動します。 Pythonまたは他の言語(と思いますか?)の新しいフォントでtesseractを使用するには、lang = "Font"
asは、image_to_string関数の2番目のパラメーターです。精度は大幅に向上しますが、それでも間違いを犯す可能性があります。または、このガイドを使用して、新しいフォントのtesseractを手動でトレーニングする方法を学ぶことができます。 http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-文字認識/ 。
Tesseractの最新バージョン(LSTMモデル)のプロセスを説明するビデオチュートリアルを作成しました。 https://www.youtube.com/watch?v=TpD76k2HYms
これは有効な回答のある古い質問ですが、まだこれに遭遇した場合は、.traineddata
ファイルを生成するための無料のオンラインツールがあります。
http://trainyourtesseract.com/
免責事項:私はこのツールの作成者ではありませんが、問題を解決し、生成されたモデルの精度は私のニーズに十分でした。
新しいフォントでtesseractをトレーニングする場合は、目的のフォントで.traineddataファイルを生成します。 .traineddataを生成するには、最初に.tiffファイルと.boxファイルが必要です。 jTessBoxEditor を使用してこれらのファイルを作成できます。 jBossTextEditorのチュートリアルは こちら です。 .tiffファイルの作成中に、トレーニングtesseractのフォントを設定できます。 jTessBoxEditorで.traineddataを生成するか、または serak-tesseract-trainer もあります。私は両方を使用しましたが、tiffおよびboxファイルの生成にはjTessBoxEditorが最適であり、tesseractのトレーニングにはserakを使用すると言います。