Weka の J48 または R の randomForest を使用してきちんと分類できるデータセットがあるとします。ここで、データポイントごとに 2 つの分類を含む別のトレーニング ファイルがあるとします。
これら 2 つを組み合わせて、新しいデータ ポイントをこれら 2 つのクラスに分類するにはどうすればよいでしょうか?
(そのため、「2 パス」トレーニングが必要になります。)
代わりに MLP (限定された Bolzmann マシンなど) を使用する必要がありますか?
Weka の J48 または R の randomForest を使用してきちんと分類できるデータセットがあるとします。ここで、データポイントごとに 2 つの分類を含む別のトレーニング ファイルがあるとします。
これら 2 つを組み合わせて、新しいデータ ポイントをこれら 2 つのクラスに分類するにはどうすればよいでしょうか?
(そのため、「2 パス」トレーニングが必要になります。)
代わりに MLP (限定された Bolzmann マシンなど) を使用する必要がありますか?
あなたの2つのデータセットは次のようになっていると思います...
データセット 1:
(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....
データセット 2:
(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....
それがあなたの問題のように見えると仮定すると、2 つの異なるラベルを予測するという 2 つの問題に分割します。これは、確率式によって正当化できると思います。
p(L1,L2|X) = p(L2|L1,X)p(L1|X)
ここで、L1 と L2 は 2 つのクラス ラベルで、X はデータです。
私の提案は、データセット 1 と 2 および L1 をターゲット変数として使用して p(L1|X) のモデルをトレーニングし、次にデータセット 2 と L1 を使用して L2 をターゲットとして p(L2|L1,X) のモデルをトレーニングすることです。変数。新しいラベルのペアを予測するには、最初のモデルを適用して L1 の推定値を取得し、次に L1 の推定値を使用して 2 番目のモデルを適用して L2 の推定値を取得します。
このアプローチに対する反論は、式は正しいものの、p(L1,L2|X) は p(L2|L1,X) や p(L1|X) よりも学習しやすいということだと思います。 . ただし、詳細がないため、私は本当に知りません。