0

機械学習タスク用の C4.5 分類子を検討しています。私は都市名を含む大規模なデータセットを持っており、ロンドン オンタリオ、ロンドン イングランド、またはフランスのブルゴーニュのロンドンなどを区別する必要がありますが、周囲のテキストから特徴を調べる必要があります: 例: 郵便番号、州名、たとえ「カナダ」または「イギリス」は言及されていません。また、国を特定するのに役立つダイヤルコードなどのメタデータにもアクセスできます。

その後、トレーニングが完了したら、大規模なデータセットで分類器を実行したいと考えています。

ここで見つけたすべての例で、結果には 2 つの状態しかありません (このゴルフの例では、プレーするかプレーしないか)。

c4.5 分類子は、ロンドン (カナダ)、ロンドン (イングランド)、ロンドン (フランス) を結果クラスとして処理できますか?それとも、ロンドン (カナダ) の True/False などに別の分類子が必要ですか?

4

1 に答える 1

1

あなたのケースには2つの選択肢があります。

  • 最初のアプローチは、c4.5 への単純な拡張です。各リーフ ノードでは、マジョリティ ラベルだけでなく、すべてのラベルを保持します。たとえば、下の図に示すように、赤いラベルは実際には 3 つの異なる葉に存在します。矢印が指すデータ ポイントでクエリを実行すると、出力は 3 つのラベル (緑、赤、青) とそれに対応する条件付き確率p(c|v)(与えられた特徴x1および、クラス に属するx2データの確率) です。xc

単木分類

  • 2番目のアプローチは、複数の決定木を生成することであり、したがってランダムフォレストです。ランダム性は、個々のツリーで利用できるトレーニング データのサブセットをランダムにサンプリングすることで注入できます。分類時に、すべてのディシジョン ツリーから投票を集計して、マルチクラスの分類結果を得ることができます。

ランダムフォレストアンサンブル

図は、Andrew Zisserma によるマルチクラス分類に関するこの優れたチュートリアルから借用しています。

于 2013-06-11T21:25:57.283 に答える