pca分析にsklearnを使用したい(その後、回帰とkmeansクラスタリング)。20k の機能、2000k 行のデータセットがあります。ただし、データセットの各行では、フィーチャのサブセット (通常は 20k のうちの任意の 5 つ程度) のみが測定されています。
値が測定されていないインスタンスに対してsklearnが機能を使用しないように、パンダのデータフレーム/セットアップsklearnをどのようにパディングする必要がありますか? (たとえば、null 機能値を 0.0 に設定すると、結果が歪められますか?)。
例えば:
X = array[:,0:n]
Y = array[:,n]
pca = PCA()
fit = pca.fit(X)
データセットがほとんどの特徴値に対してゼロで埋められている場合、pca は有効ですか?