私の変数は複数の成分で構成されています。それぞれは、コンマで区切られたさまざまな成分で構成されています。複数の値に One Hot Encoding (MultiLabelBinarizer()) を使用しましたが、データセットの次元が増加しました。
この状況に適切な方法はありますか?
私の変数は次のようになります。
df['ingredients_str'].head()
0 romaine lettuce, black olives, grape tomatoes
1 plain flour,ground pepper,salt,tomatoes
2 eggs,pepper,salt,mayonaise,cooking oil
3 water,vegetable oil,wheat,salt
4 black pepper,shallots,cornflour,cayenne
Name: ingredients_str, dtype: object