2

国名、役職、HDI(人間開発指数)、人口などの国のデータを含む大規模なデータベースがあります。このデータを、人口に基づいて「K」個のグループに分類する必要があります。私の友人の1人は、この場合、K-meansclustringが役立つだろうと提案しました。しかし、これは、人口に応じてデータを並べ替えてから、この並べ替えられたデータをグループに分割することで直接実行できると考えています。これら2つのアプローチの間にいくつかの違いはありますか?

ありがとう

4

1 に答える 1

1

1 つの次元に沿って再帰的に分割すると、決定木になります。それは異なるデータ構造です。グループ間のすべてのカットは軸に沿っています (水平または垂直)。K-means は、カットが必ずしも水平または垂直であるとは限らないため (ほとんどの場合、そうではありません)、バランスを達成できます。

実際、決定木アプローチも非常に便利です。試してみてもいいかもしれません。

于 2013-03-06T00:23:31.417 に答える