相関する特徴 (変数) が機械学習アルゴリズムの分類精度にどのように影響するかについて皆さんに質問したいと思います。相関する特徴とは、それらの間の相関を意味し、ターゲット クラス (つまり、幾何学的図形の周囲と面積、または教育レベルと平均収入) との相関ではありません。私の意見では、相関する特徴は分類アルゴリズムの精度に悪影響を及ぼします。相関によってそのうちの 1 つが役に立たなくなるからです。ほんとうにこうなのでしょうか?分類アルゴリズムの種類によって問題は変わりますか? 論文や講義に関する提案は大歓迎です!ありがとう
2 に答える
相関する特徴は、分類精度自体には影響しません。現実的な状況での問題は、分類器をトレーニングするためのトレーニング サンプルの数が限られていることです。一定数のトレーニング サンプルの場合、通常、特徴の数を増やすと分類精度がある程度向上しますが、特徴の数が増え続けると、多数の特徴に比べてアンダーサンプリングされるため、分類の精度は最終的に低下します。これが意味することの詳細については、次元の呪いをご覧ください。
2 つの数値的特徴が完全に相関している場合、一方は追加情報を追加しません (もう一方によって決定されます)。そのため、(トレーニング サンプル サイズに対して) 特徴の数が多すぎる場合は、特徴抽出手法 (主成分など)を使用して特徴の数を減らすことが有益です。
相関の効果は、分類子のタイプによって異なります。一部のノンパラメトリック分類器は、変数の相関に対する感度が低くなります (ただし、特徴の数が増えると、トレーニング時間が長くなる可能性があります)。ガウス最尤法などの統計手法の場合、トレーニング サンプル サイズに対して相関する特徴が多すぎると、元の特徴空間で分類子が使用できなくなります (サンプル データの共分散行列が特異になります)。
一般に、機能の相関がないほど、分類器のパフォーマンスは向上すると思います。相関性の高い機能のセットが与えられた場合、PCA手法を使用してそれらを可能な限り直交させ、分類器のパフォーマンスを向上させることができる場合があります。