machine-learning - 階層的クラスター内のグループの決定

Question

データを階層的クラスターツリーにグループ化できるアルゴリズムがあります。このアルゴリズムは、TobySeagramのProgrammingCollectiveIntelligenceで説明されているものです。ツリー出力は、各ノードに「距離」値を持つ2分木であり、2つの子ノードがどれだけ離れているかを示します。

次に、これを樹状図として表示できます。これにより、値がグループ化されている人間のスポットがかなり簡単になります。ただし、グループを自動的に決定するアルゴリズムを思い付くのは困難です。自動的に判断できるようにしたいと思います。

グループの数
各グループにどのポイントを配置する必要がありますか

このための標準的なアルゴリズムはありますか？

score 5 · Accepted Answer

これを行うデフォルトの方法はないと思います。単純な「手動」メソッドは、次のいずれかになります。

必要な/期待するクラスターの数を指定します
2つのノード間の最大距離のしきい値を設定します。距離が長いノードはすべて別のクラスターに属します

クラスターの数を決定するためのいくつかの自動方法があります。この問題を自動的に処理するDynamicTreeCutパッケージRがあり、pvclustも使用できます。この問題に対処するために説明されているさらに2つの方法、Salvador（2002）とDaniels（2006）があります。

score 0 · Accepted Answer

Calinski-Harabaszインデックス（分散比基準とも呼ばれます）は、階層的クラスタリングによって生成された樹状図でうまく機能することを発見しました。このペーパーでより多くの情報（および比較研究）を見つけることができます。

machine-learning - 階層的クラスター内のグループの決定

2 に答える 2

Related

Reference