Pandas:df.merge()
メソッドに関しては、マージの要約統計 (一致した数、一致しなかった数など) を取得する便利な方法です。これらの統計がフラグに依存するhow='inner'
ことは知っていますが、内部結合などを使用するときに「破棄」されている量を知ると便利です。単純に次を使用できます。
df = df_left.merge(df_right, on='common_column', how='inner')
set1 = set(df_left[common_column].unique())
set2 = set(df_right[common_column].unique())
set1.issubset(set2) #True No Further Analysis Required
set2.issubset(set1) #False
num_shared = len(set2.intersection(set1))
num_diff = len(set2.difference(set1))
# And So on ...
しかし、これはすでに実装されている可能性があると考えました。私はそれを逃しましたか(つまり、レポートシリーズまたはデータフレームreport=True
を返すマージのようなもの)new_dataframe