web-dev-qa-db-ja.com

Java OCRライブラリの推奨事項?

何トンもの写真をチェックして、キーワードが付いているかどうかを確認する必要があります。誰でも良い、信頼できるOCRライブラリを推奨できますか?正確さのために速度を犠牲にします。

11
Peck3277

純粋なJava 正確に行う必要のあるもの)があるOCRライブラリ はありません。予算によっては、純粋にJavaではないものを選択できますが、 Java:

  • 時間は十分あるが予算がゼロの場合-選択はTesseractです。それは明らかにオープンソースの中で最高です
  • 費やす予算が少なく、この認識を1度だけ実行する必要がある場合 Cloud OCR API サービスが最良の選択です。これは、主要な商用グレードのOCRエンジンに基づいており、プロジェクトごとの非常に手頃な価格を提供しています。免責事項:私はABBYYで働いています
  • この認識を継続的なプロセスとして永遠に実行する必要がある場合は、専用の変換ソフトウェアを購入する方が経済的により効率的であると考えるかもしれません。たとえば this one 、APIがあり、次から呼び出すことができます。 Java。あまりにも多くの選択肢がありますが、ライセンスに予算を投入する準備ができている場合は、実際には多くの選択肢があります。
24
Tomato

ラテン語や数字の記号を認識しない計画がある場合は、Javaライブラリ以外を見つけるより良い方法がありますが、いくつかの(外部)ツールから選択し、テキストを取得するために他の方法(1)を使用します。Linuxの場合コマンドラインインターフェイスを介してcuneiform(2)を使用しました。

  1. たとえば、コマンドラインインターフェイスとパイプ。

  2. cuneiformはLinuxに移植されましたが、Windowsの作業コマンドラインインターフェースについてはわかりません

2