私は R を使用して薬物と反応の大規模なデータセットを扱っています。今のところ、レポート ID 番号、薬物名、および報告された反応をリストする非常に長いデータ フレームとして構造化されたデータがあります。おわかりのように、ID と薬物、および薬物と反応の間には 1 対多の関係があります。
このデータセットは、ここで複製できるものよりもはるかに大きいことを念頭に置いて、どの薬物の組み合わせがどの反応をどの頻度でもたらすかを見つける方法を知りたい.
最も重要なことは、このような問題にどのようにアプローチするかに興味があるということです。データは正しく構造化されていますか? どのような概念やライブラリについて読む必要がありますか?
実際のデータへのリンクは次のとおりです: https://www.dropbox.com/s/kzx4mpyytbo9zil/query_result.csv
ID DRUG REACTION
1 1827 ASPIRIN CHEST PAIN
2 1827 CLARINEX CHEST PAIN
3 1827 ASPIRIN COUGH
4 1827 CLARINEX COUGH
5 1827 ASPIRIN HAEMOGLOBIN DECREASED
6 1827 CLARINEX HAEMOGLOBIN DECREASED
7 1827 ASPIRIN NEUTROPHIL COUNT INCREASED
8 1827 CLARINEX NEUTROPHIL COUNT INCREASED
9 1827 ASPIRIN PHARYNGOLARYNGEAL PAIN
10 1827 CLARINEX PHARYNGOLARYNGEAL PAIN
...
私の小さな小さな脳では、最終結果は次のようになります...
Drug1 Drug2 Reaction Frequency
1 tylenol alcohol hepatic failure 298
2 advil aleve bleeding 201
3 aspirin advil renal failure 199
4 docusate senna diarrhea 146
5 senna sudafed palpitations 121
6 xanax alcohol sedation 111
7 clarinex benadryl dry mouth 96
...
569 ASPIRIN CLARINEX CHEST PAIN 2
Drug1 と Drug2 は、データセット全体で最も頻度の高い薬物ペアです。「薬物ペア」は、同じレポート ID を持つ 2 つの薬物の任意の組み合わせとして定義されます。上記の出力例は、「行 1 には 298 の一意のレポート ID があり、その反応が肝不全であった」と解釈されます。