0

次のように、データセットのカテゴリ機能を格納するために使用している 1 次元配列があります (各データ インスタンスは多くのカテゴリに属し、カテゴリはコンマで区切られています)。

Administration   Oral ,Aged ,Area Under Curve ,Cholinergic Antagonists/adverse effects/*pharmacokinetics/therapeutic use ,Circadian Rhythm/physiology ,Cross-Over Studies ,Delayed-Action Preparations ,Dose-Response Relationship   Drug ,Drug Administration Schedule ,Female ,Humans ,Mandelic Acids/adverse effects/blood/*pharmacokinetics/therapeutic use ,Metabolic Clearance Rate ,Middle Aged ,Urinary Incontinence/drug therapy ,Xerostomia/chemically induced ,

Adult ,Anti-Ulcer Agents/metabolism ,Antihypertensive Agents/metabolism ,Benzhydryl Compounds/administration & dosage/blood/*pharmacology ,Caffeine/*metabolism ,Central Nervous System Stimulants/metabolism ,Cresols/administration & dosage/blood/*pharmacology ,Cross-Over Studies ,Cytochromes/*pharmacology ,Debrisoquin/*metabolism ,Drug Interactions ,Humans ,Male ,Muscarinic Antagonists/pharmacology ,Omeprazole/*metabolism ,*Phenylpropanolamine ,Polymorphism   Genetic ,Tolterodine Tartrate ,Urinary Bladder Diseases/drug therapy ,
...
...

配列の各要素は、データ インスタンスが属するカテゴリを表します。ワンホット エンコーディングを使用する必要があるため、これらを機能として使用してアルゴリズムをトレーニングできます。これは scrikit-learn を使用して実現できることは理解していますが、実装方法がわかりません。(最大 150 の可能なカテゴリと約 1,000 のデータ インスタンスがあります。)

4

1 に答える 1