0

こんにちは、名前のリストを使用してデータフレームの複数のテキスト列間のコサイン類似度を計算し、最良の一致と類似度スコアを返します。また、類似度のしきい値に基づくスコアに基づいて true false を返すことも検討しています。

例 データは以下のようになります。

#df1

name1         name2      name 3
mahesh        suresh     suvarna
suresh        suresh     gv rao
suvarna       gv rao     ravi
kumar varma   Varma      suvarna
ravi shankar  robert     peter
d man mohan   kumar      man mohan

#df2 または名前リスト

white_list
suresh
ram
rao gv
kumar varma
sameer
d mohan

#期待される出力

Best_match  Score   result
Mahesh      0.85    TRUE
Ravi Kumar  0.32    FALSE
Suresh      0.48    FALSE
Varma       0.52    FALSE
Sameer      0.32    FALSE
Mohan       0.81    TRUE

誰かがこれを行うのを手伝ってくれませんか。

4

0 に答える 0