私は今、Data Mining: Practical machine learning tools and technologies third editionという本を読んでいます。セクション 4.8 クラスタリングでは、 のパフォーマンスを使用k-d trees
またはball trees
改善する方法について説明しますk-means algorithm
。
すべてのデータ ポイントを使用してボール ツリーを構築した後、すべてのリーフ ノードを検索して、その中のポイントがそれぞれどのクラスタリング センターに近いかを確認します。より高い内部ノードによって表される領域が、単一のクラスター中心のドメイン内に完全に収まることがあります。次に、その子ノードをトラバースする必要はなく、すべての日付ポイントを 1 回で処理できます。
問題は、データ構造とアルゴリズムを実装するときに、内部ノードを参照する領域が単一のクラスター中心に該当するかどうかをどのように判断できるかということです。
2 次元または 3 次元空間では、これは難しくありません。クラスター中心のすべてのペアのすべての中垂線が、内部ノードを参照する領域に出くわすかどうかを確認できます。
しかし、より高次元の空間では、それをどのように認識するのでしょうか? これには一般的な方法論がありますか?