以前、データフレームから重複行を抽出することについて質問しました。次に、スクリプトを実行して、これらの重複のどれを最終データセットに保持するかを決定する必要があります。
このデータセットの重複するエントリは、同じ「Assay」と「Sample」の値を持っています。重複するエントリを含む新しいデータセットImの最初の10行は次のとおりです。
Assay Sample Genotype Data
1 CCT6-002 1486 A 1
2 CCT6-002 1486 G 0
3 CCT6-002 1997 G 0
4 CCT6-002 1997 NA NA
5 CCT6-002 0050 G 0
6 CCT6-002 0050 G 0
7 CCT6-015 0082 G 0
8 CCT6-015 0082 T 1
9 CCT6-015 0121 G 0
10 CCT6-015 0121 NA NA
'Data'の値(1、0、またはNA)に基づいて、これらの重複サンプルを4つのビンに分割するスクリプトを実行したいと思います。
1) All values for 'Data' are NA
2) All values for 'Data' are identical, no NA
3) At least 1 value for 'Data' is not identical, no NA.
4) At least 1 value for 'Data' is not identical, at least one is NA.
上記のデータから期待される結果は次のようになります。
Set 1
Null
Set 2
5 CCT6-002 0050 G 0
6 CCT6-002 0050 G 0
Set 3
1 CCT6-002 1486 A 1
2 CCT6-002 1486 G 0
7 CCT6-015 0082 G 0
8 CCT6-015 0082 T 1
Set 4
3 CCT6-002 1997 G 0
4 CCT6-002 1997 NA NA
9 CCT6-015 0121 G 0
10 CCT6-015 0121 NA NA
このデータセットに3つ以上の「重複した」データポイントが存在する場合があります。私はRの初心者であるため、これをどこから始めればよいのかさえわかりません。
編集:期待されるデータを使用。