1

DBSCAN には 2 つのパラメーター (minPts と Eps) が必要であることを知っています。ただし、OPTICS に必要なパラメーターについては混乱しています。eps が必要であると言うソースもあれば、minPts のみが必要であると言うソースもあるためです。

外れ値を最も適切に破棄するパラメーター値を自動的に決定しようとしている場合、どのアルゴリズムを使用するのが適切でしょうか?

4

3 に答える 3

3

元の論文によると、 minPts と Eps の両方が必要です。 Eps が不要であると言うソースは、おそらく何らかの方法を使用して、適切な値を自動的に決定しています。ただし、Eps はアルゴリズムの実行時間を短縮するためにのみ含まれています。必須ではありません。

どちらが外れ値の除去に最適かについては、数値で決定をサポートするよりも良い方法はありません。データセットを取得してその外れ値にラベルを付け、それに対して両方のアルゴリズムを実行します。クラスターの何らかのパフォーマンス測定 (AUC、F スコアなど) を使用して、最適なものを選択します。

于 2016-06-28T02:56:08.660 に答える
2

OPTICS は eps=infinity で実行できます。しかし、それは O(n^2) の複雑さです。(アクセラレーションのために実際にインデックスを使用する実装があると仮定します。)

しかし、OPTICS には、DBSCAN ほど明確に定義されたノイズの概念がありません。取得できる最も近い方法は、クラスター階層の最上位レベル (つまり、完全なデータ セット) から、その下のクラスターにあるものを差し引いたものです。しかし、階層的なクラスタリングでは、階層内の複数のレベルに「ノイズ」が存在する可能性があるため、ここではノイズの概念が実際には機能しなくなります。

于 2016-06-28T10:58:19.610 に答える