問題タブ [dbscan]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - DBSCANの代替類似度?
scikit-learn
PythonモジュールのDBSCANアルゴリズムで画像セットをテストします。類似性計算の代替手段があります。
加重メジャーまたは私が試すことができるようなもの、例?
r - RでDBSCANの距離/ epsを決定するにはどうすればよいですか?
ポイントのデータセットがあります。
(はるかに大きなデータセットですが、これは一般的な構造です。)
距離と時間に基づいてポイントをクラスター化したい。クラスターがいくつあるか分からないので、DBSCAN は良い選択のようです。
私は現在、分/5500を使用しています(これは約20メートルで、スケーリングされていると思います。)
生データがあるため、スケーリング/距離がどのように決定されるかを理解するのに問題があります。スケーリングされている場合とスケーリングされていない場合の eps の値を推測できますが、スケーリングが何を行うのか、またはどの距離メトリックが使用されているのかは不明です (おそらくユークリッド距離ですか?) これに関するドキュメントはどこにありますか?
(これは、選択する自動化された方法を見つけることではありません ( DBSCAN (R) の eps と minpts を選択しますか?のように)、異なる値が何を意味するかについてです。「最初に距離関数が必要です」と言っても、距離関数使用されているか、または作成する方法...)
data-mining - DBSCAN におけるパラメータ推定
さまざまな前置詞 (エージェント、インストゥルメンタル、時間、場所など) の分布に基づいて、自然に発生する名詞のクラスを見つける必要があります。k-means クラスタリングを使用してみましたが、あまり役に立たず、うまく機能しませんでした。探していたクラスに多くの重複がありました (おそらく、クラスの非球形と k-means でのランダムな初期化のため) )。
現在、DBSCAN の使用に取り組んでいますが、このクラスタリング アルゴリズムのイプシロン値とミニポイント値を理解するのに苦労しています。ランダムな値を使用できますか、それとも計算する必要がありますか? 誰でも助けてくれますか。特にイプシロンでは、少なくとも必要に応じて計算する方法。
machine-learning - 住宅エリアでの ML / 密度クラスタリング。各次元の 2 成分以上の混合物
ML を自己学習しようとして、この問題に遭遇しました。この分野の経験豊富な人々からの助けをいただければ幸いです。
バスルーム、リビングルーム、キッチンなどの家のコンパートメントの領域を持つ 3 つのベクトルがあるとします。データは約7万戸。個々のベクトルのヒストグラムには、二峰性分布、たとえば 2 成分ガウス混合の証拠が明らかにあります。これらの属性に従って家屋を分類する、できれば教師なしの、ある種の ML アルゴリズムが必要になりました。例: 大きなバスルーム、小さなキッチン、大きなリビング ルーム。
より具体的には、アルゴリズムが各バイモーダル分布ベクトルに対して可能な限り最良の分離しきい値を選択することを望みます。たとえば、大小のキッチン(バイモダリティの証拠を想定しているため、これはバイナリである可能性があります)、他のものについても同じことを行い、データをクラスター化します. 理想的には、中間体制の家をチェックできるように、これにはある程度の信頼度が伴います...たとえば、明らかに大きなキッチンがある家ですが、そのバスルームはしきい値エリア/大/小バスルームの境界に近くなりますたとえば、「大きなキッチンと大きなバスルーム」のリストの一番下に置くことができます。このため、最初にしきい値を決定し (FDR の可能性が低いガウス分布を当てはめる)、データを折りたたんでからクラスタリングすることは望ましくありません。
進め方について何かアドバイスはありますか?私はRとpythonを知っています。
どうもありがとう!!
java - DBSCAN クラスタリング アルゴリズムが正しく機能していません。私は何を間違っていますか?
ポイントのセットをクラスタ化する DBSCAN アルゴリズムを作成しようとしていますが、得られる結果は非常に悪いものです。これはデータのせいかもしれませんが、それだけではありません。発生してはならないサイズ < minPoints のクラスターを取得しています。
私は何を間違っていますか?コードを何度も調べましたが、何が問題なのかわかりません。
DBSCAN ウィキペディアのページに記載されているアルゴリズムを参照しました。
python - Python と scikit-learn を使用した DBSCAN:make_blobs によって返される整数ラボとは正確には何ですか?
scikit によって実装された DBSCAN アルゴリズムの例を理解しようとしています ( http://scikit-learn.org/0.13/auto_examples/cluster/plot_dbscan.html )。
ラインを変えました
でX = my_own_data
、DBSCAN に独自のデータを使用できます。
labels_true
ここで、の 2 番目に返される引数である変数make_blobs
を使用して、次のように結果の値を計算します。
labels_true
データからどのように計算できますX
か? この場合、scikit は正確には何を意味するlabel
のでしょうか?
ご協力いただきありがとうございます!
python - Python の DBSCAN: 予期しない結果
scikit-learn で DBSCAN の実装を理解しようとしているのですが、うまくいきません。ここに私のデータサンプルがあります:
次に、提供された例のように D を計算します
D
各点と他のすべての点の間の距離を含む行列を返します。したがって、対角線は常に 0 です。
次に、DBSCAN を次のように実行します。
eps = 1.1
ドキュメントをよく理解していれば、距離が 1.1 以下のポイントがクラスター (コア) と見なされることを意味します。
D[1]
以下を返します。
これは、2 番目の点から 1 番目と 3 番目の点までの距離が 1 であることを意味します。ということで、クラスターを構築してくれると期待しているのですが……。
これは、コアが見つからないことを意味しますよね? 残りの 2 つの出力は次のとおりです。
なぜクラスターがあるのですか?
machine-learning - scikit-learn では、DBSCAN はスパース行列を使用できますか?
scikit の dbscan アルゴリズムを実行しているときにメモリ エラーが発生しました。私のデータは約 20000*10000 で、バイナリ マトリックスです。
(このような行列で DBSCAN を使用するのは適切ではないかもしれません。私は機械学習の初心者です。最初のクラスター番号を必要としないクラスター メソッドを見つけたいだけです)
とにかく、scikit の疎行列と特徴抽出を見つけました。
http://scikit-learn.org/dev/modules/feature_extraction.html http://docs.scipy.org/doc/scipy/reference/sparse.html
しかし、私はまだそれを使用する方法がわかりません。DBSCAN の仕様では、疎行列の使用についての指示はありません。許可されていませんか?
DBSCAN で疎行列を使用する方法を知っている人がいたら教えてください。または、より適切なクラスター メソッドを教えてください。
python - Python と DBSCAN を使用して高次元データをクラスター化する
1000 次元のデータセットがあり、Python で DBSCAN を使用してデータをクラスター化しようとしています。どの指標を選択すればよいのか、またその理由を理解するのに苦労しています。
誰かがこれを説明できますか?また、設定する値をどのように決定すればよいeps
ですか?
データのより細かい構造に関心があるため、min_value
は 2 に設定されています。現在、sklearn の dbscan に事前設定されている通常のメトリックを使用していますが、eps
< 0.07 などの小さな eps 値の場合、いくつかのクラスターが得られますが、多くは見逃されますポイントと大きな値の場合、いくつかの小さなクラスターと 1 つの巨大なクラスターが得られます。すべてが手元のデータに依存することは理解していますが、一貫性のある構造化された方法で eps 値を選択する方法と、どのメトリックを選択するかについてのヒントに興味があります!
私はこの質問を読み、1000 の 10 ディメンションに関する回答があります :) また、メトリックを評価する方法がわからないので、より詳細な説明があれば興味深いでしょう: メトリックを評価してください!
編集: または、既存の python 実装を使用して高次元データで機能する他のクラスタリング アルゴリズムに関するヒント。