通常、CNNのトレーニング中に単純に画像を正方形にサイズ変更する傾向がありますが(たとえば、resnetは224x224の正方形の画像を撮影します)、特にアスペクト比が1でない場合、見苦しくなります。
(実際、それはグランドトゥルースを変えるかもしれません。例えば、専門家が歪んだ画像を与えるかもしれないラベルは元のものとは異なる可能性があります)。
そこで、元の比率を維持しながら、たとえば224x160にイメージのサイズを変更し、イメージに0を埋め込みます(完全に黒い224x224イメージのランダムな場所に貼り付けます)。
私のアプローチは私にとって独創的ではないように見えますが、「通常の」アプローチと比べて、私のアプローチについての情報はまったく見つかりません。ファンキー!
それで、どちらのアプローチが良いですか?どうして? (回答がデータに依存する場合、一方が他方よりも望ましい場合についての考えを共有してください。)
Jeremy Howard によると、画像の大きな部分(64x160ピクセル)をパディングすると、次の効果があります。CNNは、画像の黒い部分が関連性がなく、区別するのに役立たないことを学習する必要があります黒い部分のピクセルと特定のクラスに属するピクセルとの間に相関関係がないため、クラス間(分類設定内)。これをハードコーディングしていないので、CNNは勾配降下法で学習する必要があります。これにはおそらくエポックがかかる可能性があります。このため、多くの画像と計算能力があればそれを行うことができますが、それらのいずれかに予算がある場合は、サイズ変更がうまくいくはずです。