R に大きなデータセットがあり、そのうちの 2 つが同じかどうかを知りたいだけだとします。同じ結果を得るためにさまざまなアルゴリズムを試しているときに、これをよく使用します。たとえば、次のデータセットがあるとします。
df1 <- data.frame(num = 1:5, let = letters[1:5])
df2 <- df1
df3 <- data.frame(num = c(1:5, NA), let = letters[1:6])
df4 <- df3
したがって、これは私がそれらを比較するために行うことです:
table(x == y, useNA = 'ifany')
データセットに NA がない場合、これはうまく機能します。
> table(df1 == df2, useNA = 'ifany')
TRUE
10
ただし、NA がある場合はそれほど多くはありません。
> table(df3 == df4, useNA = 'ifany')
TRUE <NA>
11 1
この例では、両方のデータフレームが等しいNA
ことがわかっているため、問題ではないと簡単に却下できます。問題は、データセットの 1 つに がある場合はいつでも、他のデータセットが同じ位置にあることに関係なく、結果が常に になることです。NA == <anything>
NA
NA
NA
したがってtable()
、データセットを比較するために使用することは、私には理想的ではないようです。2 つのデータ フレームが同一かどうかを確認するにはどうすればよいですか?
PS: これはR の複製ではないことに注意してください - 複数のデータセットを比較する、R で 2 つのデータセットを比較する、またはRでデータセットを比較する