離散属性と連続属性の両方でクラスタリングを実行するための優れたアルゴリズムを知っている人はいますか? 私は類似した顧客のグループを特定する問題に取り組んでおり、各顧客には離散的属性と連続的属性の両方があります (顧客のタイプ、この顧客が生み出した収益額、地理的な場所などを考えてください。)
従来、K-means や EM などのアルゴリズムは連続属性に対して機能しますが、連続属性と離散属性が混在している場合はどうなるでしょうか?
離散属性と連続属性の両方でクラスタリングを実行するための優れたアルゴリズムを知っている人はいますか? 私は類似した顧客のグループを特定する問題に取り組んでおり、各顧客には離散的属性と連続的属性の両方があります (顧客のタイプ、この顧客が生み出した収益額、地理的な場所などを考えてください。)
従来、K-means や EM などのアルゴリズムは連続属性に対して機能しますが、連続属性と離散属性が混在している場合はどうなるでしょうか?
私の記憶が正しければ、COBWEB アルゴリズムは個別の属性で機能する可能性があります。
また、意味のある距離メトリックを作成するために、個別の属性に対してさまざまな「トリック」を実行することもできます。
最初のヒットの 1 つであるカテゴリ/離散属性のクラスタリングについては、Google で検索できます: ROCK: A Robust Clustering Algorithm for Categorical Attributes。
実際に、個別の属性のペアをユーザーに提示し、ユーザーに近接度を定義するように依頼します。[同義語..非常に外国語]または同様のものから到達するスケールでそれらを提示します。多くの人にこれを行わせると、非線形属性値に対して広く受け入れられている近接関数になります。
考えられる解決策として、アフィニティの伝播を検討することもできます。しかし、連続/離散のジレンマを克服するには、離散状態を評価する関数を定義する必要があります。