python - ワンホットエンコーディング - 1 次元配列に格納されたデータ

Question

次のように、データセットのカテゴリ機能を格納するために使用している 1 次元配列があります (各データインスタンスは多くのカテゴリに属し、カテゴリはコンマで区切られています)。

Administration   Oral ,Aged ,Area Under Curve ,Cholinergic Antagonists/adverse effects/*pharmacokinetics/therapeutic use ,Circadian Rhythm/physiology ,Cross-Over Studies ,Delayed-Action Preparations ,Dose-Response Relationship   Drug ,Drug Administration Schedule ,Female ,Humans ,Mandelic Acids/adverse effects/blood/*pharmacokinetics/therapeutic use ,Metabolic Clearance Rate ,Middle Aged ,Urinary Incontinence/drug therapy ,Xerostomia/chemically induced ,

Adult ,Anti-Ulcer Agents/metabolism ,Antihypertensive Agents/metabolism ,Benzhydryl Compounds/administration & dosage/blood/*pharmacology ,Caffeine/*metabolism ,Central Nervous System Stimulants/metabolism ,Cresols/administration & dosage/blood/*pharmacology ,Cross-Over Studies ,Cytochromes/*pharmacology ,Debrisoquin/*metabolism ,Drug Interactions ,Humans ,Male ,Muscarinic Antagonists/pharmacology ,Omeprazole/*metabolism ,*Phenylpropanolamine ,Polymorphism   Genetic ,Tolterodine Tartrate ,Urinary Bladder Diseases/drug therapy ,
...
...

配列の各要素は、データインスタンスが属するカテゴリを表します。ワンホットエンコーディングを使用する必要があるため、これらを機能として使用してアルゴリズムをトレーニングできます。これは scrikit-learn を使用して実現できることは理解していますが、実装方法がわかりません。(最大 150 の可能なカテゴリと約 1,000 のデータインスタンスがあります。)

python - ワン ホット エンコーディング - 1 次元配列に格納されたデータ

1 に答える 1

Related

Reference

python - ワンホットエンコーディング - 1 次元配列に格納されたデータ