Android OCRライブラリを介して、そこからテキストを抽出する画像をスキャンする必要があるアプリケーションを構築したいと思います。
Javaライブラリを使用する必要がありますか?
それがどれほど良いかはわかりませんが(最初にトレーニングする必要があります)、 Ron CemerのJava OCRライブラリ があります。
非常に拡張可能なオプションを探している場合、または特定の問題ドメインがある場合は、 Java Object Oriented Neural Engine を使用して独自のロールを検討することができます。
this などの画像から文字を識別するために個人プロジェクトで正常に使用しました。githubでアプリケーションのOCRコンポーネントのすべてのソースを見つけることができます here 。
tesseractを試して、この記事をチェックしてください http://www.itwizard.ro/interfacing-cc-libraries-via-jni-example-tesseract-163.html およびこの例 http:/ /code.google.com/p/mezzofanti/
編集:いくつかの事実-tesseractはGoogleが使用する最高のオープンソースOCRの1つです-多くの言語で利用可能なトレーニングデータがあります-mezzofantiはAndroid tesseractを使用するアプリです-OCRはT-Mob G1でA4ページをOCRしようとすると、多くの時間がかかり、結果があなたを感動させないかもしれません;-)
GoogleドキュメントのOCR機能を使用できます。 ドキュメントリストデータAPIを確認してください http://code.google.com/apis/documents/docs/3.0/developers_guide_protocol.html# OCR