cluster-analysis - ELKI でインデックスを作成する方法 - OPTICS クラスタリング

Question

私は ELKI の初心者で、これを使用して .csv ファイルから約 10,000 の緯度経度ポイントをクラスター化しています。設定が正しくなったら、1MM ポイントまでスケールアップしたいと思います。

LngLatDistanceFunction で OPTICSXi アルゴリズムを使用しています

パフォーマンスの大幅な改善を確認するために、「STR 一括読み込みで R* ツリーインデックスを有効にする」について読み続けています。チュートリアルはあまり役に立ちませんでした。

この機能を実装する方法に関するヒントはありますか?

score 1 · Accepted Answer

2 次元データで空間 R* インデックスを使用するために推奨されるパラメーターは次のとおりです。

-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit

高次元データの場合、より大きなページサイズが必要になります。512 ～ 1024 バイトのページサイズが 2 次元データのスイートスポットのようですが、データにも依存します。

クラスターを離散化するには、Xi 抽出を使用できます。

-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005

OPTICS によるインデックスアクセラレーションのメリットを得るには、アプリケーションに対してできるだけ小さいイプシロンを選択します。パラメータは、ELKI のすべての地球モデルでメートル単位です。

-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10

は最大 2 km の距離を使用します。

とを区別latitude,longitudeしてくださいlongitude,latitude。両方の次数が使用され、適切な距離関数を使用する必要があります。

geo.LatLngDistanceFunction
geo.LngLatDistanceFunction

1 に答える 1