サッカーの試合の賭けからなるデータセットがあります。ホームチームの勝利オッズ、引き分けのオッズ、アウェイチームの勝利オッズの3つのパラメータを使用して外れ値検出を行っています。
各レコードは次のようになります。
Home Draw Away
1.320 5.700 13.500
クラスターを特定しましたが、どのクラスターにノイズが含まれているかを特定するのに苦労しています。最も可能性が高いのは最後のクラスターのようです (つまり、クラスターが 10 個ある場合、クラスター 10 がノイズになります)。
これは、を使用してデータセットから外れ値を取得する正しいDBSCAN
方法ですか?もっと良い方法はありますか?
また、手動でチェックせずに、最後のクラスター (ノイズのあるクラスター) を取得するために必要なクラスターの数を知るにはどうすればよいですか?
私は統計プログラミングと外れ値検出にまったく慣れていません。まったく無知に聞こえたら申し訳ありません。