Tesseract 4のtiff/boxファイルの作成についていくつか質問があります。TrainingTesseract4.00のドキュメントには次のように記述されています。
ボックスファイルの作成ベースTesseractと同様に、フォントから合成トレーニングデータをレンダリングするか、既存の画像(古代の原稿など)にラベルを付けるかを選択できます。
ただし、既存のイメージを使用してトレーニングする方法は説明されていません。
Tesseract 4(lstm)でペルシャ語のトレーニングをしたい。古代の写本の画像がいくつかあり、フォントの代わりに画像とテキストを使用してトレーニングしたいと考えています。だから私はtext2image
コマンド。古い形式のボックスファイルはLSTMトレーニングでは機能しないことを知っています。
このgithubリポジトリを見つけるまで、私はあなたと同じように苦労していました: https://github.com/OCR-D/ocrd-train
それはあなたの人生を超簡単にします。あなたがする必要があるのはあなたのイメージをtifフォーマットで置くことだけです、そしてあなたのテキストは拡張子が.gt.txtである同じイメージ名であるべきです。それはあなたのために残りのすべてを処理します。 (ローカルマシンに応じてMakefileを更新する必要がある場合があります)
最初からトレーニングするか、微調整するかは、自分の言語、データ、および解決しようとしている問題によって異なります。私にとってファインチューニングは、現在のパフォーマンスに満足しているが、さらに追加する必要があるためです。
あなたが必要とするかもしれないすべての有用な詳細はこれにあります answer
1)以下のコマンドを使用してlstmbox
を作成します:
tesseract test.tif test-lstmbox -l eng --psm 6 lstmbox
lstmbox
が作成されますが、ボックスファイルの文字を修正する必要があります。
2)Scratchからのトレーニングに十分なデータが必要なので、微調整をお勧めします。