4

これが正しい投稿場所であることを願っています-そうでない場合は、SOに変更してもかまいません。

いずれにせよ、データセットの 2 次元表現を見つけるために MDS を使用しています。基本的に、これらは何年にもわたるタンパク質データのアミノ酸残基の pKa 値であり、その中心は同じスケールの 10 進数です。多くの役職 (~600 行) があり、多くの年 (~12 列) があります。

私の質問はこれです: MDS への正しい入力はデータ マトリックス (年と位置) ですか、それとも相関マトリックス (年と年) を入れることができますか? API ドキュメントが記述された説明と競合するため、質問します。

API ドキュメントには、データ マトリックスと記載されています: http://scikit-learn.org/stable/modules/generated/sklearn.manifold.MDS.html#sklearn.manifold.MDS (つまり、n_samples、n_features)。

書面による説明には、「入力類似度マトリックス」と書かれています: http://scikit-learn.org/stable/modules/manifold.html

4

1 に答える 1

10

初期推定器 (またはデフォルト) に渡すdissimilarity='euclidean'と、データ行列を受け取り、ユークリッド距離行列を計算します。

を渡すdissimilarity='precomputed'と、非類似度行列が使用されます。

ただし、ドキュメントは実際にはこれについて非常に明確ではありません。X引数の説明に簡単なメモを追加し、それ'euclidean'がデフォルトであることを明確にするプルリクエスト (ソースを確認する必要がありました) が受け入れられると確信しています。

于 2014-08-07T21:03:37.007 に答える