問題タブ [dimensionality-reduction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
220 参照

machine-learning - ランダム射影による次元削減に対するrandomSeedの効果は何ですか?

1) inでのrandomSeedパラメーターdimensionality reductionの影響は何ですか?random projectionweka

2) 第二に、それはdimensionality reduction情報を失わないと言われています. しかし、numberOfAttributes小さく設定すると精度が向上することがわかりました. 一方、numberOfAttributes現在の(実際の) 値に近い値または大きな値を設定すると, 精度が低下するか?

0 投票する
1 に答える
468 参照

matlab - 行列kernelpca

私たちはプロジェクトに取り組んでおり、KPCA でいくつかの結果を得ようとしています。

データセット (手書きの数字) があり、各数値の最初の 200 桁を取得したので、完全な traindata マトリックスは 2000x784 (784 は次元) です。KPCA を実行すると、新しい低次元データセット (eg2000x100) を含む行列が得られます。しかし、結果はわかりません。pca に対して svd を実行するときのように、他の行列を取得するべきではありませんか? KPCA に使用するコードは次のとおりです。

多くの論文を読みましたが、まだ kpca のロジックを理解できていません!

どんな助けでも大歓迎です!

0 投票する
1 に答える
641 参照

matlab - Matlab でモデルを設計した後に次元削減を再利用する

財務データに SVM と MLP を使用したバイナリ分類を使用しています。私の入力データには 21 個の特徴があるため、データの次元を削減するために次元削減方法を使用しました。ステップワイズ回帰レポートのようないくつかの次元削減方法は、最良の機能を報告するため、これらの機能を分類モードに使用し、PCA 変換データのような別の方法を新しいスペースに使用し、たとえば、報告された最良の列 (機能) の 60% を使用します。重大な問題は、最終モデルを使用する段階にあります。たとえば、今日の財務状況には、過去 1 年間と 2 年前の財務データを使用しました。だから今、過去と今日のデータを使って来年の予測をしたいと思っています。私の質問はここにあります:設計した分類モデルに挿入する前に、新しい入力データに PCA を使用する必要がありますか? このデータに (主成分分析など) を使用するにはどうすればよいですか? 前みたいに使わなきゃいけないの?(pca(newdata…)) または、このフェーズで使用する必要がある最後の PCA の結果がありますか?

詳しくは :

これが私のシステム構造です。モデルの最適な機能 (入力) と分類方法の最適なパラメーターを選択するための最適化アルゴリズムを使用したハイブリッド分類方法があるため、MLP のような分類方法では、21 の機能を使用して最適化するのに長い時間がかかります (このうち、最適化アルゴリズムのすべての反復を 12 回/断面で繰り返します)。したがって、分類方法に挿入する前に、次元削減手法 (PCA、NLPCA、または LDA/FDA などの教師付き方法など) を使用して機能を減らしたいと考えています。たとえば、次の構造の PCA コードを使用しています。

[coeff,score,latent,tsquared,explained,mu] = pca( _ )

その後、出力の最初の 10 列 (PCA 関数でソートされたもの) を分類および最適化モデルの入力として使用します。最終段階では、最適な入力の組み合わせで最適なモデル パラメータを見つけます。たとえば、生データには 21 個の特徴があります。PCA を使用する最初のフェーズの後、10 個の特徴を選択し、分類モデルの最適化後に最終モデルを選択します。5 つの最適な機能を備えたモデルを作成します。今度は、このモデルを新しいデータで使用したいと思います。どうすればいいですか?

親切に助けていただきありがとうございます。

0 投票する
0 に答える
79 参照

r - Retrieve candidate attributes for a node in Decision Tree using R

I am using R for creating a decision tree using CART. I did it using

#xA;

Now, I Need to Print a list of candidate attributes possible for Root node. ie node with minimal deviation in (im)purity values from Selected Root Node. Is there any way to use built in functions or do I have to modify the source?

0 投票する
1 に答える
1958 参照

python - sklearn で KMeans の変換を逆にすることは可能ですか?

データセットをクラスタリングし、sklearn.cluster.KMeans を使用してデータを重心からの距離に変換した後、重心を指定して変換を元に戻すことは可能ですか?

0 投票する
0 に答える
291 参照

k-means - 主成分分析 (PCA) の仮定

PCA を使用して、180 次元の特徴空間を 3 つの主成分に縮小しました。その後、k-mean クラスタリングを使用して、PCA の 3 つの主成分に従ってデータをクラスタリングしました。

ウィキペディアで、データセットが共同で正規分布している場合、主成分が独立していることが保証されていることを読みました。すべてのフィーチャの共同分布 (180) を計算していませんでした...それは問題ですか?

次元削減に PCA を使用する際の仮定 (ある場合) またはベスト プラクティスはどれですか?

0 投票する
1 に答える
4986 参照

hash - カーディナリティの高いデータの前処理では、最初にハッシュするか、最初にワンホット エンコードしますか?

ハッシングは次元を減らしますが、ワンホット エンコーディングは基本的に、マルチカテゴリ変数を多くのバイナリ変数に変換することによって特徴空間を爆破します。なので、逆効果のようです。私の質問は次のとおりです。

同じデータセットで両方を行う利点は何ですか? インタラクションのキャプチャについて何か読みましたが、詳細ではありません - 誰かがこれについて詳しく説明できますか?

どちらが最初に来ますか、そしてその理由は何ですか?