Evernote 保存した画像に対してOCRを実行します。 Evernoteの画像に相当する全文を取得する方法はありますか、それともOCRは検索専用ですか?
Evernote APIには、テキストと画像内に存在する長方形を取得する機能があります。 http://evernote.com/about/developer/api/evernote-api.htm を参照して、「Evernote認識インデックスXML形式」とそれを取得する関数を確認してください。問題は、彼らが従来のOCRを行わないことです...彼らのOCRアルゴリズムは、画像上の単一の「単語」に対して異なる単語を生成する可能性があります。彼らがそれを使用するのは検索だけなので、これは彼らにとっては問題ありませんが、認識エンジンとして使用するためには問題ありません。 (Wordの選択肢ごとに重みが与えられるので、それを使用できるかもしれません)
また、Evernoteは、特定の画像が正確に1つの単語に相当するとは明らかに判断しません。たとえば、Evernoteは、特定の画像が「手がかり」であり、「期限」ではないと判断しません。むしろ、両方を追跡し、どちらかを検索すると同じ画像が返されます。したがって、Evernoteはフルテキストが実際に何であるかを決定するのではなく、それが何であるかだけを決定するため、フルテキストに相当するものを取得する方法はありません。
evernoteは、ocr-stuffの作成者にまともな金額を支払いますOR何かを一緒に機能させるためにまともな金額を支払いました。したがって、抽出されたテキスト(+位置付け画像)。
(他の人の画像をスキャンして優れたOCRを提供するためのビジネスモデルである可能性があります:))
だから、答えは:いいえ。
どれだけ高度な知識が必要かはわかりませんが、Adobe Acrobatも使用しているので、Evernote添付ファイルを右クリックするだけでAcrobatで開くことができます。
次に、Acrobat内から「ドキュメント| OCRテキスト認識」を選択し、ドキュメントをプレーンテキストとして保存します。
たまにOCR変換が必要なだけなので、これは私にとってはうまく機能します。
Evernoteからすべての画像を取得できる場合は、Googleドキュメントを使用してOCRを実行できます。
画像のフォルダをGoogleドキュメントにアップロードして、画像とOCRedテキストの両方を含むドキュメントに変換することができます。
次に、これらすべてのドキュメントをプレーンテキストとしてバッチダウンロードできます。これにより、画像が削除されます。
すべてのEvernote画像にハッシュで名前を付ける場合(例:md5
)、Googleドキュメントからダウンロードしたプレーンテキストファイルを元の画像と簡単にリンクできます。
私はWindowsを使用していて、Adobe Acrobat ProとWordを使用しているので、次のことを行います。