私のテスト フレームには 81,000 レコードがあり、duplicated
2039 が同一の一致であることを示しています。R のデータ フレームで重複行を検索する (2 列に基づく)に対する 1 つの回答は、重複レコードだけの小さなフレームを作成する方法を提案しています。これも私にとってはうまくいきます:
dup <- data.frame(as.numeric(duplicated(df$var))) #creates df with binary var for duplicated rows
colnames(dup) <- c("dup") #renames column for simplicity
df2 <- cbind(df, dup) #bind to original df
df3 <- subset(df2, dup == 1) #subsets df using binary var for duplicated`
しかし、ポスターが指摘したように、エレガントではないようです。同じ結果を得るためのよりクリーンな方法はありますか? 重複しているレコードのみを表示する方法はありますか?
私の場合、スクレイピングされたデータを扱っており、複製がオリジナルに存在するのか、スクレイピングによって導入されたのかを把握する必要があります。