python - R / Pythonで共通の列（単語ごと）を持つ2つのデータフレームの部分一致

翻译自：https://stackoverflow.com/questions/27502599 2014-12-16T10:36:14.337

904 次

df1より多くの行がある csv ファイルとして 2 つのデータフレームがありますdf2。

Df1

Name                         Count
xxx yyyyyy bbb cccc           15
fffdd 444 ggg                 20
kkbbb ccc dd 29p              5
22 cc pbc2 kmn3 b23 efgh      4
ccccccccc sss qqqq            2

Df2

Name
xxx yyyyyy bbb cccc
ccccccccc sss qqqq pppc
22 cc pbc2 kmn3 b23,efgh

最初の 2 語または 3 語のいずれかに一致する部分一致 (近似/あいまい一致) を実行したいと考えています。基本的に、出力は次のようになります。

出力：

Name                       Count
xxx yyyyyy bbb cccc         15
22 cc pbc2 kmn3 b23 efgh    4
ccccccccc sss qqqq          2

完全一致を試みると、一部の行が欠落しています。Rで試してみましagrepたが、どういうわけか機能せず、ファジーマッチングが非常に遅いです。Rまたはpythonでこれを行う方法を教えてください。どんな助けでも大歓迎です！

python - R / Pythonで共通の列（単語ごと）を持つ2つのデータフレームの部分一致

1 に答える 1

Related

Reference