クラスター化するデータが文字通りポイント (2D(x, y)
または 3Dのいずれか(x, y,z)
) である場合、クラスター化方法を選択するのは非常に直感的です。それらを描画して視覚化できるため、どのクラスタリング方法がより適しているかがある程度よくわかります。
例1 私の 2D データセットが右上隅に示されている形式である場合、K-means
ここでは賢明な選択ではないかもしれませんがDBSCAN
、より良いアイデアのように思えます。
ただし、scikit-learn の Web サイトに次のように記載されています。
これらの例はアルゴリズムについてある程度の直感を示していますが、この直感は非常に高次元のデータには当てはまらない場合があります。
私の知る限り、ほとんどの著作権侵害の問題では、そのような単純なデータはありません。おそらく、そのように視覚化できない高次元のタプルをデータとして持っています。
例 2 各データが 4-D tupleとして表されるデータセットをクラスタ化したいと考えています<characteristic1, characteristic2, characteristic3, characteristic4>
。座標系で視覚化できず、以前のようにその分布を観察します。したがって、この場合DBSCAN
は が優れているとは言えません。K-means
だから私の質問:
このような「見えない」高次元のケースに適したクラスタリング方法をどのように選択すればよいでしょうか?