0

次のようなデータセット (「dat」) があります。

Team     Person1    Person2     Person3     Person4     Person5     Person6     Person7     Person8
1195880  37506459   37470284    NA          NA          NA          NA          NA          NA
6592553  30113892   33080542    21537647    32294183    NA          NA          NA          NA
6593701  697917     22860611    NA          NA          NA          NA          NA          NA
9595288  24433487   32370872    11522125    363290      8877040     22313302    32432767    NA
1595882  12318169   25645992    NA          NA          NA          NA          NA          NA
6595978  24433487   32370872    11522125    363290      8877040     22313302    32432767    NA
7545798  24433487   32370872    11522125    363290      8877040     22313302    NA          NA
2095820  12318169   25645992    37506459 

時系列順です。データセットの最初 (つまり、最も早い時点) から始めて、次のいずれかのインスタンスを排除したいと考えています。以前に形成されたチームが集まりました。どちらの状況でも、以前のグループ化を保持し、新しいグループ化を削除したいと考えています。

たとえば、私の例のデータセット チーム 6595978 と 7545798 は両方とも削除する必要があります。チーム 6595978 はチーム 9595288 (以前に時系列でリストされていた) の正確なレプリカであり、チーム 7545798 はチーム 9595288 のサブセットです。ただし、チーム 2095820 は削除しないでください。チーム 2095820 には、以前にリストされたチーム 1595882 のすべてのメンバーが含まれていますが、チーム 2095820 は、新しいメンバーである個人 37506459 が追加されたため、保持する必要があります。

どんな/すべての提案も大歓迎です。前もって感謝します!

エイミー

4

1 に答える 1