こんにちは、名前のリストを使用してデータフレームの複数のテキスト列間のコサイン類似度を計算し、最良の一致と類似度スコアを返します。また、類似度のしきい値に基づくスコアに基づいて true false を返すことも検討しています。
例 データは以下のようになります。
#df1
name1 name2 name 3
mahesh suresh suvarna
suresh suresh gv rao
suvarna gv rao ravi
kumar varma Varma suvarna
ravi shankar robert peter
d man mohan kumar man mohan
#df2 または名前リスト
white_list
suresh
ram
rao gv
kumar varma
sameer
d mohan
#期待される出力
Best_match Score result
Mahesh 0.85 TRUE
Ravi Kumar 0.32 FALSE
Suresh 0.48 FALSE
Varma 0.52 FALSE
Sameer 0.32 FALSE
Mohan 0.81 TRUE
誰かがこれを行うのを手伝ってくれませんか。