web-dev-qa-db-ja.com

フォントの代わりに画像を使用してtesseract 4をトレーニングする

Tesseract 4のtiff/boxファイルの作成についていくつか質問があります。TrainingTesseract4.00のドキュメントには次のように記述されています。

ボックスファイルの作成ベースTesseractと同様に、フォントから合成トレーニングデータをレンダリングするか、既存の画像(古代の原稿など)にラベルを付けるかを選択できます。

ただし、既存のイメージを使用してトレーニングする方法は説明されていません。

Tesseract 4(lstm)でペルシャ語のトレーニングをしたい。古代の写本の画像がいくつかあり、フォントの代わりに画像とテキストを使用してトレーニングしたいと考えています。だから私はtext2imageコマンド。古い形式のボックスファイルはLSTMトレーニングでは機能しないことを知っています。

  1. Tessearct 4 lstmのtif/boxを作成してラベルを付ける方法と、tesseractコマンドを変更する方法を教えてください。
  2. ボックスファイルを生成するために他のツールを使用する必要がありますか(ペルシア語が右から左である場合)。
  3. スクラッチから微調整またはトレーニングを使用する必要がありますか?
6
M.Rahnama

このgithubリポジトリを見つけるまで、私はあなたと同じように苦労していました: https://github.com/OCR-D/ocrd-train

それはあなたの人生を超簡単にします。あなたがする必要があるのはあなたのイメージをtifフォーマットで置くことだけです、そしてあなたのテキストは拡張子が.gt.txtである同じイメージ名であるべきです。それはあなたのために残りのすべてを処理します。 (ローカルマシンに応じてMakefileを更新する必要がある場合があります)

最初からトレーニングするか、微調整するかは、自分の言語、データ、および解決しようとしている問題によって異なります。私にとってファインチューニングは、現在のパフォーマンスに満足しているが、さらに追加する必要があるためです。

あなたが必要とするかもしれないすべての有用な詳細はこれにあります answer

1
Raniem

1)以下のコマンドを使用してlstmboxを作成します:

tesseract test.tif test-lstmbox  -l eng --psm 6 lstmbox

lstmboxが作成されますが、ボックスファイルの文字を修正する必要があります。

2)Scratchからのトレーニングに十分なデータが必要なので、微調整をお勧めします。

0
R.Kulkarni