0

私の質問は、私のデータセットに最適なアルゴリズムを見つけることに関連しています。

個人、疾患、およびテストスコアの 3 つの列を持つデータがあります (テストスコアの特徴は 50 ありますが、ここではテストスコアの特徴は 1 つだけです)。私は3000人の個人を抱えており、疾患の特徴の可能な値はdisA、disB、およびdisCであり、テストスコアは離散変数です。病気の特徴は私のクラス属性です。

1 人の個人が最大 3 つの異なる病気にかかる可能性がありますが、テスト スコア値は 1 つだけです。私の目的は、病気に基づいてテスト スコアを分類することです (どのテスト スコアがどの病気に関連付けられているか)。たとえば、個々の aa (すべての disA、disB、disC を含む) のテスト スコアは 12 です。すると、分析ファイルは次のようになります。

individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...

これは偏った分析につながります。そのようなタイプのデータに対するデータ マイニング アルゴリズムまたは統計テストはありますか? これらの患者はデータ セットの中で最も割合が高いため、削除できません。

4

2 に答える 2

0

reshapeパッケージに記載されている Hadley Wickham によって考案された次の形式を使用します。

http://had.co.nz/reshape/

http://www.jstatsoft.org/v21/i12

例:

individuals, variable, value
aa,disease,disA
aa,disease,disB
aa,disease,disC
aa,testscore,12
于 2015-08-14T02:39:52.023 に答える