パッケージ pandas を使えば簡単に実現できることはわかっているのですが、あまりにもまばらで大きい (170,000 x 5000) ため、最後に sklearn を使用して再度データを処理する必要があるため、 sklearnで行う方法。ワンホットエンコーダーを試しましたが、ダミーを「id」に関連付けるのに行き詰まりました。
df = pd.DataFrame({'id': [1, 1, 2, 2, 3, 3], 'item': ['a', 'a', 'c', 'b', 'a', 'b']})
id item
0 1 a
1 1 a
2 2 c
3 2 b
4 3 a
5 3 b
dummy = pd.get_dummies(df, prefix='item', columns=['item'])
dummy.groupby('id').sum().reset_index()
id item_a item_b item_c
0 1 2 0 0
1 2 0 1 1
2 3 1 1 0
アップデート:
今、私はここにいて、「id」が失われました。集計を行うにはどうすればよいですか?
lab = sklearn.preprocessing.LabelEncoder()
labels = lab.fit_transform(np.array(df.item))
enc = sklearn.preprocessing.OneHotEncoder()
dummy = enc.fit_transform(labels.reshape(-1,1))
dummy.todense()
matrix([[ 1., 0., 0.],
[ 1., 0., 0.],
[ 0., 0., 1.],
[ 0., 1., 0.],
[ 1., 0., 0.],
[ 0., 1., 0.]])