私は機械学習の分野ではかなり新しいもので (非常に興味深いとは思いますが)、いくつかのものを適用できる小さなプロジェクトを開始したいと考えていました。
人のデータセットがあり、各人が N 個の異なる属性 (離散値のみ、各属性はほとんど何でもかまいません) を持っているとします。
私は、同じ行動を示す人々、つまり属性に類似したパターンを持つ人々 (「そっくりさん」) のクラスターを見つけたいと考えています。
これについてどう思いますか?私を始めるための考えはありますか?
任意の数の次元を持つことができるので、PCA を使用することを考えていました。これは次元を減らすのに役立つ可能性があります。K平均?この場合はよくわかりません。この状況に最も適応するものについてのアイデアはありますか?
私はこれらすべてのアルゴリズムをコーディングする方法を知っていますが、どの場合に何を適用するかを知るには、実際の経験が本当に欠けています.