私の質問は、私のデータセットに最適なアルゴリズムを見つけることに関連しています。
個人、疾患、およびテストスコアの 3 つの列を持つデータがあります (テストスコアの特徴は 50 ありますが、ここではテストスコアの特徴は 1 つだけです)。私は3000人の個人を抱えており、疾患の特徴の可能な値はdisA、disB、およびdisCであり、テストスコアは離散変数です。病気の特徴は私のクラス属性です。
1 人の個人が最大 3 つの異なる病気にかかる可能性がありますが、テスト スコア値は 1 つだけです。私の目的は、病気に基づいてテスト スコアを分類することです (どのテスト スコアがどの病気に関連付けられているか)。たとえば、個々の aa (すべての disA、disB、disC を含む) のテスト スコアは 12 です。すると、分析ファイルは次のようになります。
individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...
これは偏った分析につながります。そのようなタイプのデータに対するデータ マイニング アルゴリズムまたは統計テストはありますか? これらの患者はデータ セットの中で最も割合が高いため、削除できません。