k-means クラスタリングを使用してセグメンテーション モデルを構築しました。
新しいデータをこれらのセグメントに割り当てるプロセスを説明できる人はいますか?
現在、モデルを構築するために行ったのと同じ変換/標準化/外れ値を適用してから、ユークリッド距離を計算しています。最小距離は、レコードが該当するセグメントです。
しかし、大部分が 1 つの特定のセグメントに分類されているのを見て、途中で何かを見逃していないかどうか疑問に思っています。
ありがとう
k-means クラスタリングを使用してセグメンテーション モデルを構築しました。
新しいデータをこれらのセグメントに割り当てるプロセスを説明できる人はいますか?
現在、モデルを構築するために行ったのと同じ変換/標準化/外れ値を適用してから、ユークリッド距離を計算しています。最小距離は、レコードが該当するセグメントです。
しかし、大部分が 1 つの特定のセグメントに分類されているのを見て、途中で何かを見逃していないかどうか疑問に思っています。
ありがとう
最も近い平均までのユークリッド距離に基づいて新しい観測を分類することは、一部のシナリオでは機能する可能性がありますが、元のクラスターの形状/サイズは無視されます。
これを回避する方法の 1 つは、元のクラスター データを使用して新しい観測結果を分類することです (たとえば、KNN http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithmを使用) 。
別の方法として、Mixture of Gaussians などの代替クラスタリング手法の使用を検討することもできます:
http://en.wikipedia.org/wiki/Mixture_model
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/混合物.html
これを使用すると、各クラスターの平均だけでなく、分散も取得できます。新しい観測ごとに、それが各クラスターに属する確率を計算できます。その確率では、元のクラスターのサイズ/形状が考慮されます。また、新しい各観測が各クラスターにどれだけ強く属しているかがわかるため、タイプタイプの「ソフト」アプローチで作業する方が適切です。また、すべてのクラスターから離れた標準偏差の数よりも大きい外れ値として観測をタグ付けするなどのことを行うことができます。 .