9

さまざまな前置詞 (エージェント、インストゥルメンタル、時間、場所など) の分布に基づいて、自然に発生する名詞のクラスを見つける必要があります。k-means クラスタリングを使用してみましたが、あまり役に立たず、うまく機能しませんでした。探していたクラスに多くの重複がありました (おそらく、クラスの非球形と k-means でのランダムな初期化のため) )。

現在、DBSCAN の使用に取り組んでいますが、このクラスタリング アルゴリズムのイプシロン値とミニポイント値を理解するのに苦労しています。ランダムな値を使用できますか、それとも計算する必要がありますか? 誰でも助けてくれますか。特にイプシロンでは、少なくとも必要に応じて計算する方法。

4

1 に答える 1

10

ドメインの知識を使用してパラメーターを選択します。イプシロンは半径です。これは、最小クラスター サイズと考えることができます。

明らかに、ランダムな値はうまく機能しません。ヒューリスティックとして、k 距離プロットを見てみることができます。しかし、それも自動ではありません。

どちらの方法でも最初に行うことは、データに適した距離関数を選択することです。そして、適切な正規化を実行します。

「minPts」に関しては、これもデータとニーズに依存します。あるユーザーは別のユーザーとは非常に異なる値を必要とする場合があります。もちろん、minPts と Epsilon は結合されています。イプシロンを 2 倍にする場合、おおよそ minPts を 2^d 増やす必要があります (ユークリッド距離の場合、超球の体積が増加するためです!)

小さくて詳細なクラスターが多数必要な場合は、低い minpts を選択します。より大きくてより少ないクラスター (およびより多くのノイズ) が必要な場合は、より大きな minpts を使用します。クラスターがまったく必要ない場合は、データセットのサイズよりも大きい minpts を選択してください...

于 2013-02-25T08:49:27.810 に答える