5

クラスター化するデータが文字通りポイント (2D(x, y)または 3Dのいずれか(x, y,z)) である場合、クラスター化方法を選択するのは非常に直感的です。それらを描画して視覚化できるため、どのクラスタリング方法がより適しているかがある程度よくわかります。

1 私の 2D データセットが右上隅に示されている形式である場合、K-meansここでは賢明な選択ではないかもしれませんがDBSCAN、より良いアイデアのように思えます。

ここに画像の説明を入力

ただしscikit-learn の Web サイトに次のように記載されています。

これらの例はアルゴリズムについてある程度の直感を示していますが、この直感は非常に高次元のデータには当てはまらない場合があります。

私の知る限り、ほとんどの著作権侵害の問題では、そのような単純なデータはありません。おそらく、そのように視覚化できない高次元のタプルをデータとして持っています。

例 2 各データが 4-D tupleとして表されるデータセットをクラスタ化したいと考えています<characteristic1, characteristic2, characteristic3, characteristic4>。座標系で視覚化できず、以前のようにその分布を観察します。したがって、この場合DBSCANは が優れているとは言えません。K-means

だから私の質問

このような「見えない」高次元のケースに適したクラスタリング方法をどのように選択すればよいでしょうか?

4

4 に答える 4

1

また、最も関連性の高い機能を見つけるために機能の重みが追加される、最近ではかなり一般的なアプローチであるソフト部分空間クラスタリングもお勧めします。たとえば、これらの重みを使用してパフォーマンスを向上させ、ユークリッド距離を使用して BMU 計算を改善できます。

于 2016-04-05T16:33:42.223 に答える