this オブジェクト検出に関するチュートリアルでは、高速R-CNNについて説明しています。 ROI(関心領域)レイヤーも記載されています。
領域の提案が最終的な畳み込み層の活性化関数に従って(各セルで)サイズ変更されると、数学的に何が起きているのでしょうか?
関心のある地域(RoI)プーリング:
これは、不均一なサイズの入力(ここではconvnet機能マップ)でmax poolingを実行し、固定サイズの小さな機能マップ(7x7など)を生成するプーリングレイヤーの一種です。この固定サイズの選択は、ネットワークハイパーパラメーターであり、事前定義されています。
このようなプーリングを行う主な目的は、トレーニングとテストの時間を短縮し、システム全体をエンドツーエンドで(共同で)トレーニングすることです。
このプーリングレイヤーを使用しているため、元の(バニラ?)R-CNNアーキテクチャと比較して、トレーニングとテスト時間が高速であるため、名前Fast R-CNN。
簡単な例( deepsense.ioによって説明される関心領域プーリング から):
ROI(関心領域)レイヤーは Fast R-CNN で導入され、 Spatial Pyramid Poolingで導入される空間ピラミッドプーリングレイヤーの特殊なケースです視覚認識のためのディープコンボリューショナルネットワーク 。 ROIレイヤーの主な機能は、完全に接続されたレイヤーのサイズの制約のために、任意のサイズの入力を固定長の出力に変更することです。
ROIレイヤーの仕組みを以下に示します。
この画像では、任意のサイズの入力画像が3つの異なるウィンドウを持つこのレイヤーに入力されます。4x4(青)、2x2(緑)、1x1(灰色)で、固定サイズの出力を16 x F、4 x F、それぞれ1 x F、ここでFはフィルターの数です。次に、これらの出力は、完全に接続されたレイヤーに供給されるベクトルに連結されます。