python - スパース行列の次元削減 (TSNE/PCA)

Question

次元削減 (DR) 手法を実行して、データとそれらが互いにどのように関連しているかを視覚化したいと考えています。Barnes-hut tsneを使用する予定ですが、サンプルアプリケーションにはユーザーガイドに従って規則的な行列形式のデータがあるため、TSNE に入力を提供する方法を取得できません。5000 の個別の値を持つ約 1200 万のレコードがあり、それらをメインメモリに保存できません。次元削減 (DR) を実行して、これらの個別の値を 2 次元散布図で視覚化したいと考えています。隣接リスト形式のデータがあります (まばらすぎるため)。

たとえば、次のレコードがあります。

これらは私の最初の 6 つの記録であるはずです。この場合、個別の値は 10 個しかありません。上記のマトリックス (テーブル) は、最初のレコードには 2、3、および 10 の列が 1 としてあり、他の列は 0 (隣接リスト) であることを示唆しています。

これらの個別の値は、ドキュメント (レコード) に存在する単語 (ラベル) にマップされます。

このようなデータを使用して fast-TSNE を実行するにはどうすればよいですか。または、これを TSNE が必要とする互換性のある形式に変換するにはどうすればよいですか? どの言語を優先する必要がありますか?

私は Python または Matlab を使用することを好みますが、それ以外でも問題ありません。あなたの提案を教えてください。

PS私はタスクを実行するための非常に高い計算機を持っています。

python - スパース行列の次元削減 (TSNE/PCA)

1 に答える 1

Related

Reference