python - pandas データフレームを使用した主成分分析

Question

pandas データフレームのデータから主成分分析を計算するにはどうすればよいですか?

score 93 · Accepted Answer

ほとんどのsklearnオブジェクトはpandasデータフレームで問題なく動作しますが、このようなものがうまくいきますか?

import pandas as pd
import numpy as np
from sklearn.decomposition import PCA

df = pd.DataFrame(data=np.random.normal(0, 1, (20, 10)))

pca = PCA(n_components=5)
pca.fit(df)

コンポーネント自体にアクセスするには、

pca.components_

score 2 · Accepted Answer

import pandas
from sklearn.decomposition import PCA
import numpy
import matplotlib.pyplot as plot

df = pandas.DataFrame(data=numpy.random.normal(0, 1, (20, 10)))

# You must normalize the data before applying the fit method
df_normalized=(df - df.mean()) / df.std()
pca = PCA(n_components=df.shape[1])
pca.fit(df_normalized)

# Reformat and view results
loadings = pandas.DataFrame(pca.components_.T,
columns=['PC%s' % _ for _ in range(len(df_normalized.columns))],
index=df.columns)
print(loadings)

plot.plot(pca.explained_variance_ratio_)
plot.ylabel('Explained Variance')
plot.xlabel('Components')
plot.show()

python - pandas データフレームを使用した主成分分析

2 に答える 2

Related

Reference