0

私は ELKI の初心者で、これを使用して .csv ファイルから約 10,000 の緯度経度ポイントをクラスター化しています。設定が正しくなったら、1MM ポイントまでスケールアップしたいと思います。

LngLatDistanceFunction で OPTICSXi アルゴリズムを使用しています

パフォーマンスの大幅な改善を確認するために、「STR 一括読み込みで R* ツリー インデックスを有効にする」について読み続けています。チュートリアルはあまり役に立ちませんでした。

この機能を実装する方法に関するヒントはありますか?

4

1 に答える 1

1

2 次元データで空間 R* インデックスを使用するために推奨されるパラメーターは次のとおりです。

-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit

高次元データの場合、より大きなページ サイズが必要になります。512 ~ 1024 バイトのページ サイズが 2 次元データのスイート スポットのようですが、データにも依存します。

クラスターを離散化するには、Xi 抽出を使用できます。

-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005

OPTICS によるインデックス アクセラレーションのメリットを得るには、アプリケーションに対してできるだけ小さいイプシロンを選択します。パラメータは、ELKI のすべての地球モデルでメートル単位です。

-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10

は最大 2 km の距離を使用します。

と を区別latitude,longitudeしてくださいlongitude,latitude。両方の次数が使用され、適切な距離関数を使用する必要があります。

geo.LatLngDistanceFunction
geo.LngLatDistanceFunction
于 2015-09-24T09:03:43.387 に答える