多くのエントリを持つデータセットがあります。これらの各エントリは特定の ID (belongID) に属し、エントリは (uniqID で) 一意ですが、同じソース (sourceID) から複数のエントリを取得できます。同じソースからの複数のエントリが同じ所属 ID を持つことも可能です。データセットで行う必要がある調査のために、1 つの所属 ID に対して 5 回以上発生する単一の sourceID のエントリを削除する必要があります。保持する必要がある最大 5 つのエントリは、「時間」値が最も高いエントリです。
これを説明するために、次のサンプル データセットがあります。
belongID sourceID uniqID Time
1 1001 101 5
1 1002 102 5
1 1001 103 4
1 1001 104 3
1 1001 105 3
1 1005 106 2
1 1001 107 2
1 1001 108 2
2 1005 109 5
2 1006 110 5
2 1005 111 5
2 1006 112 5
2 1005 113 5
2 1006 114 4
2 1005 115 4
2 1006 116 3
2 1005 117 3
2 1006 118 3
2 1005 119 2
2 1006 120 2
2 1005 121 1
2 1007 122 1
3 1010 123 5
3 1480 124 2
最終的な例は次のようになります。
belongID sourceID uniqID Time
1 1001 101 5
1 1002 102 5
1 1001 103 4
1 1001 104 3
1 1001 105 3
1 1005 106 2
1 1001 107 2
2 1005 109 5
2 1006 110 5
2 1005 111 5
2 1006 112 5
2 1005 113 5
2 1006 114 4
2 1005 115 4
2 1006 116 3
2 1005 117 3
2 1006 118 3
2 1007 122 1
3 1010 123 5
3 1480 124 2
ファイルにはデータ エントリを含むさらに多くの列がありますが、選択は純粋に時間に基づく必要があります。例に示すように、同一の属する ID を持つ sourceID の 5 番目と 6 番目のエントリが同じ時刻を持つことも発生する可能性があります。この場合、最大 = 5 であるため、選択する必要があるのは 1 つだけです。
ここでのデータセットは、説明のために、所属 ID と時間で適切に並べられていますが、実際のデータセットではそうではありません。この問題に取り組む方法はありますか?私はまだ似たようなものに出くわしていません..