問題タブ [dimensionality-reduction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
1799 参照

machine-learning - 主成分固有ベクトルの固有値によって与えられる主成分分散

主成分分析で

主成分に投影されたデータが、なぜ主成分固有ベクトルに対応する固有値によって分散するのか疑問に思いました。

教科書に説明がありません。

0 投票する
1 に答える
1142 参照

matlab - 非常に大きなデータセットで潜在的意味分析を行う方法

ドキュメントを 2 次元でグラフ化できるように、次元を削減するために、約 50,000 のドキュメントと 300,000 の単語/用語を含む非常に大きなデータセットに対して LSA または主成分分析を実行しようとしています。

Python と MATLAB で試しましたが、データセットのボリュームが原因で、どちらのインスタンスでもシステムがメモリ不足になり、クラッシュします。負荷を軽減する方法や、より迅速かつ効率的に実行できる近似 LSA/PCA を実行する方法を知っている人はいますか? 私の全体的な目標は、300k ワードを大幅に次元削減することです。

0 投票する
2 に答える
726 参照

pca - PCA による次元削減についての決定

私は 2D データを持っています (ゼロ平均正規化データを持っています)。共分散行列、固有値、固有ベクトルを知っています。次元を 1 に減らすかどうかを決定したい (主成分分析、PCA を使用)。どうやって決めるの?そのための方法論はありますか?

私はsthを探しています。この比率を見て、この比率が高い場合は、次元削減を続けるのが論理的です。

PS 1: PoV (Proportion of Variation) はそれの略ですか?

PS 2:ここに答えがあります: https://stats.stackexchange.com/questions/22569/pca-and-proportion-of-variance-explainedそれをテストする基準はありますか?

0 投票する
1 に答える
565 参照

pca - NMFを高速に実行するための優れたライブラリはありますか?

形状が570000*3000のスパース行列があります。nimaでNMFを実行してみました(デフォルトのnmfメソッドを使用し、max_iter65に設定)。しかし、私はnimfaが非常に遅いことに気づきました。より高速なライブラリ(Python / Rで使用可能)またはソフトウェアを使用してNMFを実行した人はいますか?

0 投票する
2 に答える
1004 参照

string - 連続する重複を削除して文字列の長さを減らす

2 つのフィールドを持つ R データフレームがあります。

文字のみを保持し、重複を繰り返さないことで、文字の繰り返しで単語を単純化したいと思います。

例:AAAAABBBBB私に与えるべきであり、私ABABCAAABBBDDD与えるべきですABCABD

誰でもこれを行う方法について考えがありますか?

0 投票する
1 に答える
186 参照

pca - 次元削減の推奨アルゴリズム (PCA は適していません)

このアプリケーションでは、次元削減のアルゴリズムを使用して、特定の数のコンポーネントがすべてデータ内のほぼ同じ量の分散を説明するようにしたいと考えています。

したがって、説明された分散が最初の主成分から後続の各主成分に急激に減少するため、主成分分析は適していません。

どのようなアルゴリズムを使用できますか?

0 投票する
1 に答える
150 参照

matlab - どのディメンションが主成分かを知るにはどうすればよいですか?

PCA を行うには、matlab の princomp 関数を使用します。私の理解では、潜在をチェックして、必要な次元の数を決定できました。

そして、trainMatrix = coeff(:,1:10) (上位 10 次元を選択) と newData = data*trainMatrix を使用することで、削減されたデータを取得できました。

しかし、どの次元が削減され、どの 10 次元が残っているかをどのように把握できますか?

つまり、30 個の機能がある場合、princomp の後で、どの 10 個の機能 (元のデータの列インデックス) を予約したかがわかりますか?

ありがとう。

0 投票する
1 に答える
1455 参照

matlab - MATLAB でプロット マーカーとして (または横に) 画像のサムネイルを追加する方法は?

一連の画像に対して MATLAB で Isomap Dimensionality reduction を実行しています。それに対応する多様体上の点の横に画像のサムネイルをプロットしたいと思います。

マニホールドの例

現在、2 つの異なるアイソマップhttp://isomap.stanford.edu/http://robotics.cs.brown.edu/projects/stisomap/を使用しています。

0 投票する
2 に答える
842 参照

matlab - 次元削減手法の評価方法は?

バイナリ形式の NxM データのデータセットがあります。さまざまな次元手法を適用し、最初の 2 つの次元をプロットします。これは、テクニックが自分のデータセットに適しているかどうかの直感を得る方法です。私が使用する次元削減技術の適合性をテストするための、より適切な/方法論的/ヒューリスティック/正式な方法はありますか?