次のような csv ファイルがあります。
text short_text category
... ... ...
ファイルを開き、次のように Pandas データ フレームに保存しました。
filepath = 'path/data.csv'
train = pd.read_csv(filepath, header=0, delimiter=",")
各レコードのカテゴリ フィールドには、カテゴリのリストが含まれています。これは文字列であり、各カテゴリは次のように一重引用符で囲まれています。
['Adult' 'Aged' 'Aged 80 and over' 'Benzhydryl Compounds/*therapeutic use' 'Cresols/*therapeutic use' 'Double-Blind Method' 'Female' 'Humans' 'Male' 'Middle Aged' 'Muscarinic Antagonists/*therapeutic use' '*Phenylpropanolamine' 'Tolterodine Tartrate' 'Urinary Incontinence/*drug therapy']
これをワンホットエンコーディングで機械学習に使いたい。scikit-learn の sklearn.preprocessing パッケージを使用してこれを実装できることは理解していますが、これを行う方法がわかりません。
注: 考えられるすべてのカテゴリのリストはありません。