1

私はMRにDBSCANを実装しようとしており、以下に貼り付けたリンクからの直感を使用しています

http://codingwiththomas.blogspot.com/2012/05/distributed-dbscan-intuition.html

MongoDBデータベースを照会するDBSCANアルゴリズムを実装するのに最適なプログラミング言語?

私の質問は、初期距離行列をどのように計算するかでした。距離行列を計算してメモリに保存するためだけに Hadoop ジョブを実行したくありません。良い設計にはならないからです。助言がありますか。

4

1 に答える 1

1

私のブログを読んでくれてありがとう。

はい、計算する距離行列は非常に困難です。

よく似たベクトルを見つけるために、ミンハッシュ クラスタリング (mahout にも実装があります) を適用しました。したがって、距離行列全体を計算する必要はありませんが、類似したベクトルの行列を計算する必要があります。

したがって、私のアドバイスは、 mahout の minhashing を使用して、同様のベクトルのクラスターを見つけることです。次に、それらのより小さな距離行列を計算し、投稿に書いた残りの箇条書きを適用します。

  • 「ミニ」クラスターから隣接するポイントを抽出する
  • 結果のグラフから連結成分アルゴリズムを実行します (MapReduce、Giraph、および Hama を使用した実装があります)。

基本的にはそれだけです。残念ながら、この段階全体をオープン ソース化することはできないため、手順全体が必要になります。

于 2013-04-07T14:50:27.933 に答える