TensorFlowとディープラーニングは初めてです。自然シーン画像のテキストを認識しようとしています。以前はOCRを使用していましたが、ディープラーニングを使用したいと思っています。テキストは常に同じ形式です:ABC-DEF 88:88
。
私がやったことは、すべての文字/数字を認識することです。つまり、トレーニングとテストセットを構築するために、すべてのキャラクターの周りの画像をトリミングしました(つまり、各画像から10文字が得られます)。2つのconvニューラルネットワークが構築されます。だから私のトレーニングセットはキャラクターの写真のセットで、ラベルはただの文字/数字でした。
しかし、私はさらに進みたいです。私がやりたいのは、全体像を与え、テキスト全体を出力することです(前のモデルのような1文字ではありません)。
よろしくお願いします。
問題は、テキストがどこにあるかわからないことです。解決策は、画像が与えられた場合、スライドウィンドウを使用して画像のさまざまな部分をトリミングし、分類子を使用して、トリミングされた領域にテキストがあるかどうかを判断することです。その場合は、文字/数字認識機能を使用して、実際にどの文字/数字であるかを伝えます。
したがって、別の分類子をトレーニングする必要があります。トリミングされた画像(トリミングされた画像のサイズはテキスト領域のサイズよりも少し大きいはずです)が与えられた場合、内部にテキストがあるかどうかを決定します。
トレーニングセットを作成し(ポジティブサンプルはテキスト領域、ネガティブサンプルは大きな画像からランダムに切り取った他の領域)、それをトレーニングします〜