7

1000 次元のデータセットがあり、Python で DBSCAN を使用してデータをクラスター化しようとしています。どの指標を選択すればよいのか、またその理由を理解するのに苦労しています。

誰かがこれを説明できますか?また、設定する値をどのように決定すればよいepsですか?

データのより細かい構造に関心があるため、min_valueは 2 に設定されています。現在、sklearn の dbscan に事前設定されている通常のメトリックを使用していますが、eps< 0.07 などの小さな eps 値の場合、いくつかのクラスターが得られますが、多くは見逃されますポイントと大きな値の場合、いくつかの小さなクラスターと 1 つの巨大なクラスターが得られます。すべてが手元のデータに依存することは理解していますが、一貫性のある構造化された方法で eps 値を選択する方法と、どのメトリックを選択するかについてのヒントに興味があります!

私はこの質問を読み、1000 の 10 ディメンションに関する回答があります :) また、メトリックを評価する方法がわからないので、より詳細な説明があれば興味深いでしょう: メトリックを評価してください!

編集: または、既存の python 実装を使用して高次元データで機能する他のクラスタリング アルゴリズムに関するヒント。

4

1 に答える 1