類似した名前を見つけて、2 つの名前の類似性スコアを割り当てるサード パーティ製の「ツール」があります。
ツールの動作を可能な限り厳密に模倣することになっています。インターネットで検索した後、距離法を試してみました。同じためにfuzzywuzzyを使用しました。
matches = process.extractBests(
name,
choices,
score_cutoff=50,
scorer=fuzz.token_sort_ratio,
limit=1
);
ツールの結果に近い結果が得られましたが、以下に強調表示されているように、外れ値はほとんどありません。
インターネットでさらに検索した結果、さらに改良するにはある種の機械学習の実装が必要になることがわかりました。私は機械学習の世界ではまったくの初心者です。そのため、コードをさらに改良するために次にどこに取り組めばよいかアドバイスを求めています。
ありがとう!