0

DBSCAN クラスタリング アルゴリズムを実装するコードを Python で記述しました。私のデータセットは 14,000 人のユーザーで構成され、各ユーザーは 10 個の機能で表されます。入力として Min_samples と epsilon の値として正確に何を保持するかを決定できません。どのように決定すればよいですか? 類似度の尺度はユークリッド距離です (したがって、決定がさらに難しくなります)。

4

1 に答える 1

0

DBSCAN は、そのパラメーターを推定するのがかなり難しい場合がよくあります。

OPTICS アルゴリズムについて考えたことはありますか? この場合、最小クラスター サイズに対応する Min_samples のみが必要です。

それ以外の場合は、DBSCAN の場合、過去に試行錯誤して実行しました。いくつかの値を試して、何が起こるかを確認してください。従うべき一般的な規則は、データセットにノイズが多い場合は、より大きな値を持つべきであり、次元数 (この場合は 10) とも相関するということです。

于 2012-04-14T17:15:10.860 に答える