ML を自己学習しようとして、この問題に遭遇しました。この分野の経験豊富な人々からの助けをいただければ幸いです。
バスルーム、リビングルーム、キッチンなどの家のコンパートメントの領域を持つ 3 つのベクトルがあるとします。データは約7万戸。個々のベクトルのヒストグラムには、二峰性分布、たとえば 2 成分ガウス混合の証拠が明らかにあります。これらの属性に従って家屋を分類する、できれば教師なしの、ある種の ML アルゴリズムが必要になりました。例: 大きなバスルーム、小さなキッチン、大きなリビング ルーム。
より具体的には、アルゴリズムが各バイモーダル分布ベクトルに対して可能な限り最良の分離しきい値を選択することを望みます。たとえば、大小のキッチン(バイモダリティの証拠を想定しているため、これはバイナリである可能性があります)、他のものについても同じことを行い、データをクラスター化します. 理想的には、中間体制の家をチェックできるように、これにはある程度の信頼度が伴います...たとえば、明らかに大きなキッチンがある家ですが、そのバスルームはしきい値エリア/大/小バスルームの境界に近くなりますたとえば、「大きなキッチンと大きなバスルーム」のリストの一番下に置くことができます。このため、最初にしきい値を決定し (FDR の可能性が低いガウス分布を当てはめる)、データを折りたたんでからクラスタリングすることは望ましくありません。
進め方について何かアドバイスはありますか?私はRとpythonを知っています。
どうもありがとう!!