問題タブ [dbscan]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1191 参照

real-time - R ツリーを使用した DBSCAN の実装

Rツリーを使用してDBSCANを実装しようとしています.Rツリーの形式でデータを保存できます.だから私の質問は、Rツリーにリアルタイムデータを保存する方法と、それを使用してポイントの近傍を見つけるための領域クエリをどのように実装する必要があるかです. ?

0 投票する
2 に答える
3827 参照

algorithm - データマイニングのためのDBSCANアルゴリズムとクラスタリングアルゴリズム

カテゴリ データ (キノコ データ セット) に DBSCAN アルゴリズムをどのように実装しますか?

ワンパス クラスタリング アルゴリズムとは何ですか?

ワンパス クラスタリング アルゴリズムの疑似コードを提供していただけますか?

0 投票する
2 に答える
6396 参照

c# - クラスター分析用の C# または vb.net の DBSCAN コード

DBSCAN を適用して Denisty Based Cluster of data を作成する vb.net または C#.net のライブラリまたはコードにアドバイスを提供するために、あなたのサポートが必要です。GPS データがあり、DBSCAN アルゴリズムを使用して滞在ポイントを見つけたいと考えています。しかし、私はアルゴリズムの技術的な部分の多くを理解していません.

0 投票する
3 に答える
7404 参照

r - R での dbscan の結果のグラフ化

コメント、提案、または解決策は大歓迎です、ありがとうございます。

Rのパッケージを使用して、fpc非常に密集したデータ (範囲 -3、6 の間の 40,000 ポイントの 3 セット) の dbscan 分析を行っています。

いくつかのクラスターを見つけたので、重要なものだけをグラフ化する必要があります。問題は、約 39,000 ポイントを含む単一のクラスター (最初のクラスター) があることです。このクラスター以外のすべてのクラスターをグラフ化する必要があります。

は、このdbscan()クラスター データをすべて格納するための特別なデータ型を作成します。データ フレームのようにインデックスは作成されません (しかし、そのように表現する方法はあるのでしょうか?)。

plot()基本的な呼び出しを使用して dbscan タイプをグラフ化できます。しかし、私が言ったように、これは無関係な 39,000 ポイントをグラフ化します。

dbscantl;dr:データ型の特定のクラスターのみをグラフ化するにはどうすればよいですか?

0 投票する
3 に答える
1721 参照

matrix - 距離行列を入力として受け取る密度ベースのクラスタリング ライブラリ

入力として距離行列を取り、各要素がクラスター内の他の各要素から最大「x」距離離れたクラスターを返す、オープン/フリー密度ベースのクラスター化ライブラリを見つけるのに助けが必要です (基本的に、指定された密度のクラスターを返します)。 .

DBSCAN アルゴリズムをチェックアウトしましたが、私のニーズに合っているようです。事前に計算された距離行列で離陸し、目的の密度でクラスターを出力できる DBSCAN のクリーンな実装はありますか?

あなたの意見は本当に役に立ちます。

0 投票する
2 に答える
2874 参照

r - RのDBSCANのクラスター中心平均?

dbscanパッケージで使用fpcすると、次の出力を取得できます。

しかし、クラスターの中心 (最も多くのシードを持つクラスターの平均) を見つける必要があります。誰でもこれを進める方法を教えてもらえますか?

0 投票する
1 に答える
289 参照

java - 混合データ型(文字列を含む)用のJavaMatrixライブラリ

データ分析を実行し、クラスタリングアルゴリズム(K-meansやDBSCANなど)を実装するためのJavaMatrixライブラリを探しています

ColtとParallelColt(大小のデータセットで最高のパフォーマンス)を見つけましたが、どうやらそれらは文字列行列をサポートしていません。データセットのエントリは、Double行列のみであると想定されています。

何か提案はありますか?

よろしくお願いします。

0 投票する
1 に答える
2311 参照

python - DBSCAN アルゴリズムへの入力値の決定

DBSCAN クラスタリング アルゴリズムを実装するコードを Python で記述しました。私のデータセットは 14,000 人のユーザーで構成され、各ユーザーは 10 個の機能で表されます。入力として Min_samples と epsilon の値として正確に何を保持するかを決定できません。どのように決定すればよいですか? 類似度の尺度はユークリッド距離です (したがって、決定がさらに難しくなります)。

0 投票する
3 に答える
3530 参照

mongodb - MongoDBデータベースを照会するDBSCANアルゴリズムを実装するのに最適なプログラミング言語?

DBSCAN アルゴリズムを実装する必要があります。この疑似コードから開始すると仮定します

私のコードは、Ubuntu Linux 64 ビットのAmazon EC2インスタンスで実行する必要があります。

関数regionQueryは、 MongoDBデータベースにクエリを実行して、P の eps 近傍内のすべてのポイントを取得します。

それで、あなたによると、パフォーマンスを向上させるために実装するのに最適なプログラミング言語は何ですか? CPHPJava (とは思いません)?

0 投票する
1 に答える
2722 参照

r - 2 つの DBSCAN 実装でクラスターの割り当てが異なる場合がある

R で DBSCAN アルゴリズムを実装しました。クラスターの割り当てをfpc ライブラリの DBSCAN 実装と一致させています。テストは、fpc ライブラリ dbscan の例で指定されているように生成された合成データで行われます。

クラスタリングは、以下のパラメーターを使用して行われます。

のクラスタ割り当てを のfpc::dbscan実装と比較していますdbscan。実行の最大値は、すべてのポイントが両方の実装で同じように分類されたことを示しています。

ただし、fpc 実装とは異なるクラスタに、私の実装では 1 ~ 2 ポイント、まれに 5 ~ 6 ポイントが割り当てられる場合があります。境界点の分類のみが異なることに気付きました。プロット後、クラスターのメンバーシップが実装で一致しないポイントが、最初に発見されたクラスターのシード ポイントに応じて、周囲のクラスターのいずれかに割り当てることができるような位置にあることがわかりました。

1ポイントの分類が異なる150ポイントの画像を表示しています(混乱を避けるため)。私の実装では、fpc 実装よりも常にミスマッチ ポイント クラスタ番号が大きいことに注意してください。

クラスターのプロット。

上の挿入図は fpc::dbscan、下の挿入図は私の dbscan 実装です

クラスターのプロット。 上の挿入図は fpc::dbscan、下の挿入図は私の dbscan 実装です

注: 私の実装と異なる点は、感嘆符 (!) でマークされています。不一致セクションの拡大画像もアップロードしています。


私の dbscan 実装の出力

+コアポイントです

o境界点です

-ノイズポイントです

!異なる点を強調する

私のdbscanの実装


fpc::dbscan 実装の出力

三角形はコア ポイントです。色付きの円は境界点です。黒い円はノイズ ポイントです。 ここに画像の説明を入力


もう一つの例:

私の dbscan 実装の出力

ここに画像の説明を入力


fpc::dbscan 実装の出力

ここに画像の説明を入力


編集

等しい xy スケールの例

Anony-Mousse のリクエストに応じて

場合によっては、私の実装が不一致点を正しく分類しているように見えることもあれば、fpc 実装が不一致を正しく分類しているように見えることもあります。下記参照:

fpc::dbscan (三角形のプロットのもの) は、不一致点を正しく分類しているようです

ここに画像の説明を入力

私のdbscan実装(+プロットのもの)は、不一致点を正しく分類したようです

ここに画像の説明を入力

質問

  • 私はクラスター分析が初めてなので、別の質問があります。これらのタイプの違いは許容されますか?

  • 私の実装では、最初のポイントから最後のポイントまでスキャンしています。またfpc::dbscan、ポイントは同じ順序でスキャンされます。!このような場合、両方の実装で、同じクラスタ センターから不一致ポイント ( でマーク) が検出されているはずです。また、ポイントをノイズとしてマークするいくつかのケースを生成しましたfpc::dbscanが、私の実装ではそれをいくつかのクラスターに割り当てます。この場合、なぜこの違いが生じるのでしょうか?

要求に応じてコード セグメント。