7

現在、クラスター分析用の外れ値を含む、正方形、円、長方形などのさまざまな形状のデータセットを生成するツールを探しています。

クラスター分析に適したデータセット ジェネレーターを推奨できる人はいますか? Rのような言語でそのようなデータセットを生成する方法はありますか?

4

3 に答える 3

6

シェイプを作成し、境界座標を抽出します。splancsパッケージを使用して、形状にランダムな点を設定できます。

これが私のプログラムの1つからの小さなスニペットです:

# First we create a circle, into which uniform random points will be generated (kudos to Barry Rowlingson, r-sig-geo).
circle <-  function(x = x, y = y, r = radius, n = n.faces){
    t <- seq(from = 0, to = 2 * pi, length = n + 1)[-1]
    t <- cbind(x = x + r * sin(t), y = y+ r * cos(t))
    t <- rbind(t, t[1,])
    return(t)
}

csr(circle(0, 0, 100, 30), 1000)

代替テキスト

外れ値を自由に追加してください。これを行う1つの方法は、さまざまな形状をサンプリングし、さまざまな方法でそれらを結合することです。

于 2011-01-18T10:02:51.797 に答える
6

おそらく、mlbenchパッケージ、特にmlbench.*関数から生成される合成データセットを調べる必要があります。以下の例を参照してください。

ここに画像の説明を入力

他のデータセットまたはユーティリティ関数は、おそらくCRANのCluster Task View で見つけるのが最適です。@Roman が言ったように、外れ値を追加することは、特に 2 次元のみで作業する場合は特に難しくありません。

于 2012-02-20T09:03:40.490 に答える
1

ELKIには、任意の次元でさまざまな分布を生成できる柔軟なデータ ジェネレーターがあります。たとえば、ガンマ分布変数を生成することもできます。

Wiki にドキュメントがあります: http://elki.dbs.ifi.lmu.de/wiki/DataSetGenerator

于 2012-07-03T13:22:58.560 に答える