相関する特徴(変数)が機械学習アルゴリズムの分類精度にどのように影響するかについて、みんなに質問したいと思います。相関のある機能とは、ターゲットクラス(つまり、幾何学図形の境界と面積、または教育レベルと平均収入)とではなく、それらの間の相関を意味します。私の意見では、相関した特徴は分類アルゴリズムの精度に悪影響を及ぼします。相関により特徴の1つが役に立たなくなるからです。本当にこんな感じ?問題は分類アルゴリズムの種類によって変わりますか?論文や講義に関する提案は大歓迎です!ありがとう
相関する機能は、分類精度自体には影響しません。現実的な状況での問題は、分類器を訓練するための訓練の例が限られていることです。トレーニング例の数が固定されている場合、特徴の数を増やすと、通常は分類の精度が一点に上がりますが、特徴の数が増え続けると、undersampled多数の機能に関連しています。これの意味についてさらに学ぶには、 次元の呪い を見てください。
2つの数値的特徴が完全に相関している場合、一方は追加情報を追加しません(他方によって決定されます)。そのため、(トレーニングサンプルサイズに対して)フィーチャの数が多すぎる場合は、 フィーチャ抽出 テクニック(たとえば、 principal components)を使用してフィーチャの数を減らすことが有益です。 )
相関の効果は、分類子のタイプによって異なります。一部のノンパラメトリック分類子は、変数の相関に対する感度が低くなります(ただし、特徴の数が増えるとトレーニング時間が長くなる可能性があります)。ガウス最尤法などの統計手法では、トレーニングサンプルサイズに対して相関する特徴が多すぎると、元の特徴空間で分類器が使用できなくなります(サンプルデータの共分散行列が特異になります)。
一般に、機能の相関性が低いほど、分類器のパフォーマンスは向上すると思います。高度に相関した特徴のセットが与えられると、PCA技術を使用してそれらを可能な限り直交させて、分類器のパフォーマンスを改善することが可能かもしれません。