0

ML を自己学習しようとして、この問題に遭遇しました。この分野の経験豊富な人々からの助けをいただければ幸いです。

バスルーム、リビングルーム、キッチンなどの家のコンパートメントの領域を持つ 3 つのベクトルがあるとします。データは約7万戸。個々のベクトルのヒストグラムには、二峰性分布、たとえば 2 成分ガウス混合の証拠が明らかにあります。これらの属性に従って家屋を分類する、できれば教師なしの、ある種の ML アルゴリズムが必要になりました。例: 大きなバスルーム、小さなキッチン、大きなリビング ルーム。

より具体的には、アルゴリズムが各バイモーダル分布ベクトルに対して可能な限り最良の分離しきい値を選択することを望みます。たとえば、大小のキッチン(バイモダリティの証拠を想定しているため、これはバイナリである可能性があります)、他のものについても同じことを行い、データをクラスター化します. 理想的には、中間体制の家をチェックできるように、これにはある程度の信頼度が伴います...たとえば、明らかに大きなキッチンがある家ですが、そのバスルームはしきい値エリア/大/小バスルームの境界に近くなりますたとえば、「大きなキッチンと大きなバスルーム」のリストの一番下に置くことができます。このため、最初にしきい値を決定し (FDR の可能性が低いガウス分布を当てはめる)、データを折りたたんでからクラスタリングすることは望ましくありません。

進め方について何かアドバイスはありますか?私はRとpythonを知っています。

どうもありがとう!!

4

3 に答える 3

1

探しているのはクラスタリング方法です。これは基本的に教師なし分類です。簡単な方法はk-meansで、多くの実装があります (k-means は、分散がゼロになる傾向があるため、多変量ガウス混合の限界と見なすことができます)。これにより、問題のポイントと重心の間の距離メトリック (ユークリッド距離) に関連する信頼度が自然に得られます。

最後に 1 つ: 各属性を順番にクラスタリングしてから、独立した属性から合成を作成する方法についてはわかりません。なぜアルゴリズムに多次元空間でクラスタを見つけさせないのでしょうか? アルゴリズムの選択に応じて、特徴の共分散が考慮され (キッチンが大きいとベッドルームが大きくなる可能性が高くなります)、単独では考えられない自然なグループが生成されます。

于 2013-04-03T10:06:53.420 に答える
0

他の人が提案したことに加えて、個々の次元でクラスター化すること (おそらく DBSCAN などの密度ベースのクラスター化方法でさえ) が実際に可能であり、1 次元クラスター (間隔) を形成し、そこから作業して、おそらくそれらをマルチに結合します-次元の長方形のクラスター。

私はまさにこれを含むプロジェクトを行っています。密度ベースのメソッドを 1 つの次元で実行することには、いくつかの利点があることがわかりました。これには、ある属性の境界にあるオブジェクトを他の属性に従って分類することについて言っていることを実行できるという事実が含まれます。

于 2013-05-07T08:24:57.913 に答える