私は、NCBI BLAST で生成されたタンパク質間類似性の大規模なデータセットを扱っています。結果を大きなペアワイズ マトリックス (25,000 x 25,000) に保存し、多次元スケーリング (MDS) を使用してデータを視覚化しています。これらの行列は RAM で処理するには大きすぎるため、HDF5 形式でディスクに保存し、h5py モジュールでアクセスしました。
sklearn マニフォールド MDS メソッドは、3D の小規模データの優れた視覚化を生成したため、私が現在使用しているものです。計算には、完全な対称ペアワイズ非類似度行列が必要です。ただし、大規模なデータセットでは、形成されたクラスターを覆い隠す一種の「地殻」が形成されます。
問題は、完全な非類似度行列を入力する必要があることだと思います。一部のタンパク質は互いに関連していませんが、ペアワイズ非類似度マトリックスでは、非類似度のデフォルトの最大値を入力する必要があります。sklearn MDS のドキュメントでは、値 0 を欠損値と見なすと記載されていますが、欠損値が必要な場所に 0 を入力しても機能しないようです。
無関係なタンパク質を入力する必要がないように、不完全な非類似度マトリックスを入力する方法はありますか? または、ペアワイズ非類似度マトリックスでデータを視覚化するためのより良い/より高速な方法はありますか?