machine-learning - 複数の結果で C4.5 分類器を使用する

Question

機械学習タスク用の C4.5 分類子を検討しています。私は都市名を含む大規模なデータセットを持っており、ロンドンオンタリオ、ロンドンイングランド、またはフランスのブルゴーニュのロンドンなどを区別する必要がありますが、周囲のテキストから特徴を調べる必要があります: 例: 郵便番号、州名、たとえ「カナダ」または「イギリス」は言及されていません。また、国を特定するのに役立つダイヤルコードなどのメタデータにもアクセスできます。

その後、トレーニングが完了したら、大規模なデータセットで分類器を実行したいと考えています。

ここで見つけたすべての例で、結果には 2 つの状態しかありません (このゴルフの例では、プレーするかプレーしないか)。

c4.5 分類子は、ロンドン (カナダ)、ロンドン (イングランド)、ロンドン (フランス) を結果クラスとして処理できますか?それとも、ロンドン (カナダ) の True/False などに別の分類子が必要ですか?

score 1 · Accepted Answer

あなたのケースには2つの選択肢があります。

最初のアプローチは、c4.5 への単純な拡張です。各リーフノードでは、マジョリティラベルだけでなく、すべてのラベルを保持します。たとえば、下の図に示すように、赤いラベルは実際には 3 つの異なる葉に存在します。矢印が指すデータポイントでクエリを実行すると、出力は 3 つのラベル (緑、赤、青) とそれに対応する条件付き確率p(c|v)(与えられた特徴x1および、クラスに属するx2データの確率) です。xc

単木分類

2番目のアプローチは、複数の決定木を生成することであり、したがってランダムフォレストです。ランダム性は、個々のツリーで利用できるトレーニングデータのサブセットをランダムにサンプリングすることで注入できます。分類時に、すべてのディシジョンツリーから投票を集計して、マルチクラスの分類結果を得ることができます。

ランダムフォレストアンサンブル

図は、Andrew Zisserma によるマルチクラス分類に関するこの優れたチュートリアルから借用しています。

machine-learning - 複数の結果で C4.5 分類器を使用する

1 に答える 1

Related

Reference