OCRFeederのOCRユーティリティを使用しています。 OCRFeederはtesseract-engineを使用しています。 tesseractに必要ないくつかの言語パックをインストールしました。スキャンしたドキュメントをテキストに変換するためにtesseractが正しい言語ファイルを使用するように言語を設定するにはどうすればよいですか?
OCRフィーダー設定でエンジンコマンドラインをセットアップする必要があります。次のようになります。
-l lang_id $IMAGE $FILE; cat $FILE.txt
ここで、lang_idは、対応する言語パッケージ名に示されているIDです。