r - マルチラベル分類は正しく行われましたか?

Question

Weka の J48 または R の randomForest を使用してきちんと分類できるデータセットがあるとします。ここで、データポイントごとに 2 つの分類を含む別のトレーニングファイルがあるとします。

これら 2 つを組み合わせて、新しいデータポイントをこれら 2 つのクラスに分類するにはどうすればよいでしょうか?

(そのため、「2 パス」トレーニングが必要になります。)

代わりに MLP (限定された Bolzmann マシンなど) を使用する必要がありますか?

score 1 · Accepted Answer

あなたの2つのデータセットは次のようになっていると思います...

データセット 1:

(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....

データセット 2:

(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....

それがあなたの問題のように見えると仮定すると、2 つの異なるラベルを予測するという 2 つの問題に分割します。これは、確率式によって正当化できると思います。

p(L1,L2|X) = p(L2|L1,X)p(L1|X)

ここで、L1 と L2 は 2 つのクラスラベルで、X はデータです。

私の提案は、データセット 1 と 2 および L1 をターゲット変数として使用して p(L1|X) のモデルをトレーニングし、次にデータセット 2 と L1 を使用して L2 をターゲットとして p(L2|L1,X) のモデルをトレーニングすることです。変数。新しいラベルのペアを予測するには、最初のモデルを適用して L1 の推定値を取得し、次に L1 の推定値を使用して 2 番目のモデルを適用して L2 の推定値を取得します。

このアプローチに対する反論は、式は正しいものの、p(L1,L2|X) は p(L2|L1,X) や p(L1|X) よりも学習しやすいということだと思います。 . ただし、詳細がないため、私は本当に知りません。

r - マルチラベル分類は正しく行われましたか?

1 に答える 1

Related

Reference