1

pca分析にsklearnを使用したい(その後、回帰とkmeansクラスタリング)。20k の機能、2000k 行のデータセットがあります。ただし、データセットの各行では、フィーチャのサブセット (通常は 20k のうちの任意の 5 つ程度) のみが測定されています。

値が測定されていないインスタンスに対してsklearnが機能を使用しないように、パンダのデータフレーム/セットアップsklearnをどのようにパディングする必要がありますか? (たとえば、null 機能値を 0.0 に設定すると、結果が歪められますか?)。

例えば:

X = array[:,0:n]
Y = array[:,n]
pca = PCA()
fit = pca.fit(X)

データセットがほとんどの特徴値に対してゼロで埋められている場合、pca は有効ですか?

4

1 に答える 1

1

3 つのオプションが表示されますが、問題の解決策はありません。

1) null 値を 0 に置き換えますが、結果は明らかに悪化します。

2) 未知の値を各特徴の平均値または中央値に置き換えます。これはより良いかもしれませんが、依然として歪んだ PCA が得られます。

3) 最後のオプションは、PCA を使用せず、スパース データの次元削減手法を検索します。

于 2016-10-27T13:41:30.703 に答える