問題タブ [dbscan]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - ELKI DBSCAN クラスターの凸包をファイルに書き込む
データ分析に ELKI を使い始めましたが、DBSCAN を実行した後に計算されたクラスターの凸包をファイルに出力することは、一見単純なことのように思えてできません。視覚化 GUI を使用して凸包を視覚化できますが、KML ファイルを生成できません。クラスタリングの結果を (ResultWriter の結果ハンドラを使用して) フォルダーに書き込むこともできますが、KMLOutputHandler を設定してもファイルが生成されません。ログ ウィンドウにエラー メッセージが表示されません (verbose パラメータを true に設定しても)。
ELKI で KML ファイルを生成するコツはありますか? 誰でもこれを行う手順を踏むことができますか?
どんな助けでも大歓迎です。
(余談ですが、ELKI を使用して DBSCAN 結果のアルファ形状を生成することは可能ですか? もしそうなら、どのパラメーターを調整する必要がありますか?)
algorithm - DBSCAN アルゴリズム (再帰ロジック)
上は。ご覧のとおり、Wikipedia による DBSCAN のアルゴリズム。
この正確な部分についてお聞きしたいです。
私の理解では、コア ポイントの近隣からコア ポイントが訪問された場合、それは現在調べられているクラスターに結合されますよね? しかし、ここで再帰はどのように行われるのでしょうか? 以下のループを定義したためです。
そのため、NeighborPts からの追加のポイントは expandCluster 関数によって検査されず、新しい NeighborPts に実際に同じクラスターへの別のコア ポイントであるポイントがある場合、アルゴリズムはどのように進行しますか?
Java で「expandCluster」メソッドを実装したコードがあります。
このコードを使用してデータ コレクションを変更した後、データコレクションregion
を再検討する予定はありますregion.addAll(v);
か?
cluster-analysis - クラスタリングで密度を計算する方法
私は2つの座標を持つデータセットを扱っています。現在、最初に各ポイントから他のポイントまでの合計距離を計算し、それを合計ポイントで割って密度を計算しています。望ましい結果が得られないため、これが密度を計算する正しい方法であることを知りたいです。
これはクラスター ファイルですhttps://dl.dropboxusercontent.com/u/45772222/samp.txt
このクラスターには3つのクラスター-> 2つの楕円とそれらを接続する1つのパイプが必要です。どうすればそれらを分離できますか?
scikit-learn - scikit-learn で入力 DBSCAN をスケーリングする方法
sklearn.clustering.DBSCAN への入力を前処理する必要がありますか?
例http://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#example-cluster-plot-dbscan-pyでは、入力サンプル X 間の距離が計算され、正規化されます。
v0.14 の別の例 ( http://jaquesgrobler.github.io/online-sklearn-build/auto_examples/cluster/plot_dbscan.html ) では、いくつかのスケーリングが行われます。
後者の例に基づいてコードを作成し、このスケーリングでインプレッション クラスタリングがより適切に機能するようにしました。ただし、このスケーリングは「平均を取り除き、単位分散にスケーリングすることで特徴を標準化します」。2d クラスターを見つけようとします。クラスタを正方形の領域に分散させた場合、たとえば 100x100 としましょう。スケーリングに問題はありません。ただし、800x200 などの長方形の領域に分布している場合、スケーリングによってサンプルが「圧縮」され、サンプル間の相対距離が 1 次元で変更されます。これはクラスタリングを悪化させますよね?または、私は理解していますか?違う?なんらかの前処理を適用する必要がありますか、それとも単に「生」データを入力するだけでよいですか?
python - Python の scikit-learn の DBSCAN: クラスター ポイントを配列に保存します。
Scikit Learningの DBSCAN クラスタリング アルゴリズムの例のデモに従って、各クラスタリング クラスの x、y を配列に格納しようとしています。
scikit-learn で DBSCAN の実装を理解しようとしているのですが、この時点から困っています。クラスターの数は 3 (n_clusters_) で、各クラスターの x、y を配列に格納したい