現在、クラスター分析用の外れ値を含む、正方形、円、長方形などのさまざまな形状のデータセットを生成するツールを探しています。
クラスター分析に適したデータセット ジェネレーターを推奨できる人はいますか? Rのような言語でそのようなデータセットを生成する方法はありますか?
現在、クラスター分析用の外れ値を含む、正方形、円、長方形などのさまざまな形状のデータセットを生成するツールを探しています。
クラスター分析に適したデータセット ジェネレーターを推奨できる人はいますか? Rのような言語でそのようなデータセットを生成する方法はありますか?
シェイプを作成し、境界座標を抽出します。splancs
パッケージを使用して、形状にランダムな点を設定できます。
これが私のプログラムの1つからの小さなスニペットです:
# First we create a circle, into which uniform random points will be generated (kudos to Barry Rowlingson, r-sig-geo).
circle <- function(x = x, y = y, r = radius, n = n.faces){
t <- seq(from = 0, to = 2 * pi, length = n + 1)[-1]
t <- cbind(x = x + r * sin(t), y = y+ r * cos(t))
t <- rbind(t, t[1,])
return(t)
}
csr(circle(0, 0, 100, 30), 1000)
外れ値を自由に追加してください。これを行う1つの方法は、さまざまな形状をサンプリングし、さまざまな方法でそれらを結合することです。
おそらく、mlbenchパッケージ、特にmlbench.*
関数から生成される合成データセットを調べる必要があります。以下の例を参照してください。
他のデータセットまたはユーティリティ関数は、おそらくCRANのCluster Task View で見つけるのが最適です。@Roman が言ったように、外れ値を追加することは、特に 2 次元のみで作業する場合は特に難しくありません。
ELKIには、任意の次元でさまざまな分布を生成できる柔軟なデータ ジェネレーターがあります。たとえば、ガンマ分布変数を生成することもできます。
Wiki にドキュメントがあります: http://elki.dbs.ifi.lmu.de/wiki/DataSetGenerator