3

私は、NCBI BLAST で生成されたタンパク質間類似性の大規模なデータセットを扱っています。結果を大きなペアワイズ マトリックス (25,000 x 25,000) に保存し、多次元スケーリング (MDS) を使用してデータを視覚化しています。これらの行列は RAM で処理するには大きすぎるため、HDF5 形式でディスクに保存し、h5py モジュールでアクセスしました。

sklearn マニフォールド MDS メソッドは、3D の小規模データの優れた視覚化を生成したため、私が現在使用しているものです。計算には、完全な対称ペアワイズ非類似度行列が必要です。ただし、大規模なデータセットでは、形成されたクラスターを覆い隠す一種の「地殻」が形成されます。

http://imgur.com/XkpoOJ4

問題は、完全な非類似度行列を入力する必要があることだと思います。一部のタンパク質は互いに関連していませんが、ペアワイズ非類似度マトリックスでは、非類似度のデフォルトの最大値を入力する必要があります。sklearn MDS のドキュメントでは、値 0 を欠損値と見なすと記載されていますが、欠損値が必要な場所に 0 を入力しても機能しないようです。

無関係なタンパク質を入力する必要がないように、不完全な非類似度マトリックスを入力する方法はありますか? または、ペアワイズ非類似度マトリックスでデータを視覚化するためのより良い/より高速な方法はありますか?

4

2 に答える 2

1

MDS には完全な非類似度マトリックス AFAIK が必要です。しかし、それはおそらくあなたが達成しようとしていることに最適なツールではないと思います。非類似度マトリックスがメトリックであると仮定すると(そうである必要はありません)、25,000次元に確実に埋め込むことができますが、それを3Dに「押しつぶす」とデータポイントが「圧縮」されすぎます。その結果、剥がしたい「クラスト」ができます。

非類似度マトリックスに対して階層的クラスタリング アルゴリズムを実行し、葉 (つまり、タンパク質) を並べ替えて、類似したものがまとめられるようにし、クラスタリングによって生成された順序に従って行と列を並べ替えた非類似度マトリックスを視覚化します。 . 近距離が黄色で遠距離が青であると仮定すると (色覚障害を考えてみてください! :-) )、これにより、対角線に沿って大きな黄色の長方形があり、類似のタンパク質が集まっているマトリックスが得られるはずです。

画像をダウンサンプリングするか、25,000 x 25,000 の画面を購入する必要があります :-) しかし、とにかく「全体的な」低解像度ビューが必要だと思います。

于 2014-08-02T04:44:10.103 に答える