簡単なパンダの質問:
drop_duplicates()
重複に関係するすべての行を削除する機能はありますか?
同等の質問は次のとおりです。パンダにはデータフレームのセットの違いがありますか?
例えば:
In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})
In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})
In [7]: df1
Out[7]:
col1 col2
0 1 2
1 2 3
2 3 4
In [8]: df2
Out[8]:
col1 col2
0 4 6
1 2 3
2 5 5
たぶん、次のようなものdf2.set_diff(df1)
がこれを生成します:
col1 col2
0 4 6
2 5 5
ただし、私の場合、個別のインデックスを持つデータフレームを処理する必要があるため、インデックスに依存したくありません。
ところで、私は当初、現在のdrop_duplicates()
方法の拡張について考えていましたが、集合論の性質を使用する 2 番目のアプローチが一般的にはるかに有用であることに気付きました。ただし、どちらのアプローチも現在の問題を解決します。
ありがとう!