次のようなデータセット (「dat」) があります。
Team Person1 Person2 Person3 Person4 Person5 Person6 Person7 Person8
1195880 37506459 37470284 NA NA NA NA NA NA
6592553 30113892 33080542 21537647 32294183 NA NA NA NA
6593701 697917 22860611 NA NA NA NA NA NA
9595288 24433487 32370872 11522125 363290 8877040 22313302 32432767 NA
1595882 12318169 25645992 NA NA NA NA NA NA
6595978 24433487 32370872 11522125 363290 8877040 22313302 32432767 NA
7545798 24433487 32370872 11522125 363290 8877040 22313302 NA NA
2095820 12318169 25645992 37506459
時系列順です。データセットの最初 (つまり、最も早い時点) から始めて、次のいずれかのインスタンスを排除したいと考えています。以前に形成されたチームが集まりました。どちらの状況でも、以前のグループ化を保持し、新しいグループ化を削除したいと考えています。
たとえば、私の例のデータセット チーム 6595978 と 7545798 は両方とも削除する必要があります。チーム 6595978 はチーム 9595288 (以前に時系列でリストされていた) の正確なレプリカであり、チーム 7545798 はチーム 9595288 のサブセットです。ただし、チーム 2095820 は削除しないでください。チーム 2095820 には、以前にリストされたチーム 1595882 のすべてのメンバーが含まれていますが、チーム 2095820 は、新しいメンバーである個人 37506459 が追加されたため、保持する必要があります。
どんな/すべての提案も大歓迎です。前もって感謝します!
エイミー