抽出された質量 (まあ、m/z ですが、それほど重要ではありません) 値と時間で構成される、生成した一連のデータがあります。ファイルからデータを抽出しますが、測定を繰り返すことが可能であり、その結果、データセット内に大量の冗長性が生じます。質量のみの類似性、または質量と時間の類似性に基づいて関連するものをグループ化するために、これらをクラスター化する方法を探しています。
グループ化する必要があるデータの例は次のとおりです。
m/z 時間
337.65 1524.6
337.65 1524.6
337.65 1604.3
ただし、クラスターの数を決定する方法はありません。おそらく単純な距離メトリックを使用して、これを達成するための効率的な方法を知っている人はいますか? 悲しいことに、クラスタリングアルゴリズムに精通していません。