python - DBSCAN アルゴリズムへの入力値の決定

Question

DBSCAN クラスタリングアルゴリズムを実装するコードを Python で記述しました。私のデータセットは 14,000 人のユーザーで構成され、各ユーザーは 10 個の機能で表されます。入力として Min_samples と epsilon の値として正確に何を保持するかを決定できません。どのように決定すればよいですか? 類似度の尺度はユークリッド距離です (したがって、決定がさらに難しくなります)。

score 0 · Accepted Answer

DBSCAN は、そのパラメーターを推定するのがかなり難しい場合がよくあります。

OPTICS アルゴリズムについて考えたことはありますか? この場合、最小クラスターサイズに対応する Min_samples のみが必要です。

それ以外の場合は、DBSCAN の場合、過去に試行錯誤して実行しました。いくつかの値を試して、何が起こるかを確認してください。従うべき一般的な規則は、データセットにノイズが多い場合は、より大きな値を持つべきであり、次元数 (この場合は 10) とも相関するということです。

python - DBSCAN アルゴリズムへの入力値の決定

1 に答える 1

Related

Reference