1

サッカーの試合の賭けからなるデータセットがあります。ホームチームの勝利オッズ、引き分けのオッズ、アウェイチームの勝利オッズの3つのパラメータを使用して外れ値検出を行っています。

各レコードは次のようになります。

 Home   Draw    Away
1.320  5.700  13.500

クラスターを特定しましたが、どのクラスターにノイズが含まれているかを特定するのに苦労しています。最も可能性が高いのは最後のクラスターのようです (つまり、クラスターが 10 個ある場合、クラスター 10 がノイズになります)。

これは、を使用してデータセットから外れ値を取得する正しいDBSCAN方法ですか?もっと良い方法はありますか?

また、手動でチェックせずに、最後のクラスター (ノイズのあるクラスター) を取得するために必要なクラスターの数を知るにはどうすればよいですか?

私は統計プログラミングと外れ値検出にまったく慣れていません。まったく無知に聞こえたら申し訳ありません。

4

1 に答える 1