0

マルチクラスの問題の場合、ランダム フォレストやランダム ファーンなどの機械学習アルゴリズムに対してデータのバランスを取る必要がありますか?それとも、ある程度バランスが崩れていても問題ありませんか?

4

2 に答える 2

2

不均衡によってクラス インスタンスの分離可能性が変化すると、不均衡なクラスの問題が発生します。しかし、これは常に不均衡なデータセットでは発生しません。1 つのクラスから得られるデータが多いほど、識別平面を作成するのに意味のある特徴をより簡単に見つけることができるため、そのクラスからのデータをより適切に区別できる場合があります (判別分析を使用しない場合のポイントは、クラスに従ってインスタンスを分類および分離することです)。

たとえば、トレーニング セット内のインスタンスの 99.1% が 1 つのクラスに含まれていたKDDCup2004タンパク質分類タスクを思い出すことができますが、不均衡を軽減するためにアンダー サンプリング法を使用しようとすると、結果が悪化するだけです。これは、最初のクラスからの大量のデータが、より小さなクラスのデータを定義したことを意味します。

ランダム フォレスト、および一般的な決定木に関しては、各ステップで、セットを 2 つ (またはそれ以上) のクラス意味のあるサブセットに分割できる最も有望な機能を選択することによって機能します。1 つのクラスに関する本質的により多くのデータを持つことは、デフォルトでは ( = 常に) この分割に偏りを与えませんが、不均衡がクラスの実際の分布を表していない場合に限ります。

したがって、最初に多変量解析を実行して、データセット内のクラス間の不均衡の程度を取得しようとすることをお勧めします。それでも疑問がある場合は、さまざまなアンダーサンプリング比で一連の実験を実行してください。

于 2013-07-30T06:59:57.143 に答える