algorithm - 1 次元または 2 次元データの適切なクラスタリング方法

Question

抽出された質量 (まあ、m/z ですが、それほど重要ではありません) 値と時間で構成される、生成した一連のデータがあります。ファイルからデータを抽出しますが、測定を繰り返すことが可能であり、その結果、データセット内に大量の冗長性が生じます。質量のみの類似性、または質量と時間の類似性に基づいて関連するものをグループ化するために、これらをクラスター化する方法を探しています。

グループ化する必要があるデータの例は次のとおりです。

m/z 時間

337.65 1524.6

337.65 1604.3

ただし、クラスターの数を決定する方法はありません。おそらく単純な距離メトリックを使用して、これを達成するための効率的な方法を知っている人はいますか? 悲しいことに、クラスタリングアルゴリズムに精通していません。

score 2 · Accepted Answer

http://en.wikipedia.org/wiki/Cluster_analysis

http://en.wikipedia.org/wiki/DBSCAN

事前にクラスターの数を本当に指定したくない場合は、階層的クラスタリングに関するセクションを読み、DBSCAN も調べてください。距離メトリックを定義する必要があります。そのステップでは、クラスタリングするフィーチャまたはフィーチャの組み合わせを決定します。

score 1 · Accepted Answer

しきい値を設定してみませんか？

連続する値が (時間ごとに) 少なくとも+-0.1(m/s ごとに) 異ならない場合、それらはグループ化されます。または、相対しきい値を使用します+- .1%。これらのしきい値は、ドメインの知識に従って設定してください。

これは、このデータを前処理する簡単な方法のように思えます。

ここで「クラスタリング」アルゴリズムを使用することは、私には完全にやり過ぎに思えます。クラスタリングアルゴリズムは、ここで見つけようとしているものよりもはるかに複雑な構造を発見しようとします。結果は驚くべきものであり、制御するのは難しいでしょう. 単純なしきい値変更アプローチ (クラスタリングとは呼びません!) は、説明、理解、および制御が非常に簡単です。

score 0 · Accepted Answer

単純な 1 次元の K-means クラスタリング (http://en.wikipedia.org/wiki/K-means_clustering#Standard_algorithm) が適切であり、直接使用できます。唯一の問題は、適切な K を選択することです。適切な K を選択する最善の方法は、K と残差分散をプロットし、分散を「劇的に」減少させる K を選択することです。もう 1 つの戦略は、情報基準 (ベイズ情報基準など) を使用することです。

K-Means を多次元データに簡単に拡張できます。ただし、個々の次元のスケーリングには注意する必要があります。例えば。(1KG, 1KM) (2KG, 2KM) のうち (1.7KG, 1.4KM) に最も近い点は、これらの目盛りで (2KG, 2KM) です。しかし、2 番目の項目をメートル単位で表現し始めると、おそらく別の方法が当てはまります。

algorithm - 1 次元または 2 次元データの適切なクラスタリング方法

3 に答える 3

Related

Reference