0

私はこのサイトもクラスター分析も初めてなので、規約に違反していたら申し訳ありません。

Cluster 3.0 を使用して、ユークリッド距離と平均リンケージを使用した階層クラスター分析を実行しています。クラスター 3.0 は、遺伝子とそれらの類似性スコアを結合するノードを含む .gtr ファイルを出力します。.gtr ファイルの最初の行は、常に遺伝子を別の遺伝子にリンクし、その後に類似性スコアが続くことに気付きました。しかし、この類似性スコアを再現するにはどうすればよいでしょうか?

私のデータ セットには 8 つの遺伝子があり、d_{ij} に遺伝子 i と遺伝子 j の間のユークリッド距離が含まれる距離行列を作成します。次に、各要素をマトリックスの最大値で割って、マトリックスを正規化します。類似性マトリックスを取得するために、1 からすべての要素を減算します。ただし、結果はリンケージ タイプを使用せず、出力類似性スコアとは異なります。

私は主に、連鎖が最初のノードの類似性 (2 つの最も近い遺伝子の結合) にどのように影響するか、および類似性スコアを計算する方法について混乱しています。

ありがとうございました!

4

1 に答える 1

1

このアルゴリズムは、データ ポイントではなく、何らかのリンケージ メソッドを使用してクラスターを比較します。ただし、アルゴリズムの最初の反復では、各データ ポイントが独自のクラスターを形成します。これは、リンク方法が実際にデータポイント間の距離を測定するために使用するメトリックに縮小されることを意味します(この場合、ユークリッド距離)。後続の反復では、クラスター間の距離は、リンク方法 (この場合は平均リンク) に従って測定されます。2 つのクラスターABの場合、これは次のように計算されます。

ここにリンクの説明を入力

ここd(a,b)で、 は 2 つのデータ ポイント間のユークリッド距離です。ABにデータ ポイントが 1 つしか含まれていない場合 (最初の反復のように)、この式は に縮小されることを確信してくださいd(a,b)。これにより、物事がもう少し明確になることを願っています。そうでない場合は、正確に何をしたいかの詳細を提供してください。

于 2013-07-15T22:20:22.087 に答える