r - クラスタリング用のデータを生成する

Question

人工データを使用してランダムフォレストクラスタリングをテストしたいと考えています。信頼性が高く、多少のノイズがあるデータセットを生成したかったのです。

A1 と A2 (どちらもバイナリ) の 2 つの属性があります。クラスは、A1 xor A2 として計算されます。ノイズの多いバイナリ属性をいくつか追加しました。

たとえば、次のようなものがあります。

A1   A2   noise | class
0    0     ...  | 0
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 0
 ...       ...  | ...

クラスタリングではクラスがないため、ランダムフォレストクラスタリングでは元のデータを取得して変換します。既存のすべてのケースをクラス 1 でマークし、クラス 2 でマークされた合成データを追加します。合成データは、一部の属性のすべての値からランダムサンプリングによって構築されます。

これが得られるものです：

A1   A2   noise | class
0    0     ...  | 1
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 1
       .....
------------------------- 
0    0     ...  | 2
0    0     ...  | 2
1    1     ...  | 2
0    1     ...  | 2
       .....

上の部分は、クラス 1 でマークされた元のデータ (上記のように) です。線の下は、クラス 2 でマークされたランダムにサンプリングされた合成データです。ランダムフォレストは、クラス 1 と 2 を区別する構造 (実データとランダムデータ) を見つけようとします。問題は、クラスのない XOR は何も教えてくれず、ここで学ぶことは何もないということです。

最後に、私の質問: 非依存、軽度の依存、または強い依存の属性を使用して、ランダムフォレストクラスタリングのデータを生成する方法を教えてください。

r - クラスタリング用のデータを生成する

0 に答える 0

Related

Reference