1

私は機械学習の分野ではかなり新しいもので (非常に興味深いとは思いますが)、いくつかのものを適用できる小さなプロジェクトを開始したいと考えていました。

人のデータセットがあり、各人が N 個の異なる属性 (離散値のみ、各属性はほとんど何でもかまいません) を持っているとします。

私は、同じ行動を示す人々、つまり属性に類似したパターンを持つ人々 (「そっくりさん」) のクラスターを見つけたいと考えています。

これについてどう思いますか?私を始めるための考えはありますか?

任意の数の次元を持つことができるので、PCA を使用することを考えていました。これは次元を減らすのに役立つ可能性があります。K平均?この場合はよくわかりません。この状況に最も適応するものについてのアイデアはありますか?

私はこれらすべてのアルゴリズムをコーディングする方法を知っていますが、どの場合に何を適用するかを知るには、実際の経験が本当に欠けています.

4

3 に答える 3

3

n 次元の属性ベクトルを使用する K-means は、開始するための妥当な方法です。距離メトリックをいじって、それが結果にどのように影響するかを確認したい場合があります。

于 2012-04-14T03:01:16.967 に答える
2

私の意見では、期待値最大化アルゴリズム(EMとも呼ばれます)も試してみてください。一方、PCAを使用する場合は、このアルゴリズムによってクラスタリングに関連する次元が減少する可能性があるため、注意が必要です。

于 2012-04-15T09:56:31.140 に答える
2

ほとんどすべてのクラスタリング アルゴリズムの最初のステップは、適切な距離関数を見つけることです。などの多くのアルゴリズムDBSCANは、この距離関数でパラメーター化できます (少なくともまともな実装では。もちろん、ユークリッド距離のみをサポートするものもあります...)。

オブジェクトの類似性を測定する方法を検討することから始めましょう。

于 2012-04-14T06:16:55.240 に答える