0

だから私は、usgsによって提供された地球データにクラスタリングアルゴリズムを適用しようとしています。

http://earthquake.usgs.gov/earthquakes/feed/

私の主な目標は、地震のフィードに基づいて、(地震の量または場所が経験する地震の大きさのいずれかによって)最も危険な場所のトップ10を決定することです。

それを行う方法について何か提案はありますか?私はk-meansを調べてから、k-meansの合計(各クラスターで各地震のマグニチュードが重み付けされている)を取得して、最も危険なクラスターを調べています。

これもコードリファレンスとしてrubyで書いています。

ありがとう

4

1 に答える 1

2

K-means は、データ セット内の外れ値をうまく処理できません。

さらに、分散を中心に設計されていますが、緯度と経度の分散はあまり意味がありません。実際、k-means は緯度 +-180° のラップアラウンドを処理できません。代わりに、大圏距離を使用する必要があります。

したがって、大圏距離などの距離を使用できる密度ベースのクラスタリング アルゴリズムを使用してみてください。

ウィキペディアとクラスター分析に関する良い本を読んでください。

于 2013-02-26T20:44:37.710 に答える