algorithm - 遺伝学の重複データに適したアルゴリズムはどれですか?

Question

私の質問は、私のデータセットに最適なアルゴリズムを見つけることに関連しています。

個人、疾患、およびテストスコアの 3 つの列を持つデータがあります (テストスコアの特徴は 50 ありますが、ここではテストスコアの特徴は 1 つだけです)。私は3000人の個人を抱えており、疾患の特徴の可能な値はdisA、disB、およびdisCであり、テストスコアは離散変数です。病気の特徴は私のクラス属性です。

1 人の個人が最大 3 つの異なる病気にかかる可能性がありますが、テストスコア値は 1 つだけです。私の目的は、病気に基づいてテストスコアを分類することです (どのテストスコアがどの病気に関連付けられているか)。たとえば、個々の aa (すべての disA、disB、disC を含む) のテストスコアは 12 です。すると、分析ファイルは次のようになります。

individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...

これは偏った分析につながります。そのようなタイプのデータに対するデータマイニングアルゴリズムまたは統計テストはありますか? これらの患者はデータセットの中で最も割合が高いため、削除できません。

score 0 · Accepted Answer

reshapeパッケージに記載されている Hadley Wickham によって考案された次の形式を使用します。

http://had.co.nz/reshape/

http://www.jstatsoft.org/v21/i12

例：

individuals, variable, value
aa,disease,disA
aa,disease,disB
aa,disease,disC
aa,testscore,12

algorithm - 遺伝学の重複データに適したアルゴリズムはどれですか?

2 に答える 2

Related

Reference