4

SeatGeek のFuzzyWuzzy String Matching モジュールを使用しています。

token_set_ratio 検索アルゴリズムを使用すると、大文字と小文字のわずかな違いで結果が大きく異なることがわかりました。

たとえば、ファイルで「I am eating」というフレーズを探している場合、100% 一致します。しかし、フレーズが「私は食べています」の場合、1 文字の変更だけで 65% の一致が得られます。

アルゴリズムの大文字と小文字を区別しないようにする方法はありますか?

4

3 に答える 3

2

デフォルトでは、token_set_ratio() は大文字と小文字を区別しません。

from fuzzywuzzy import fuzz
fuzz.token_set_ratio("I am eating", "i am eating")
=> 100
于 2014-01-09T17:05:02.387 に答える
1

私は同じ問題を抱えていました.おそらくTokenSetRatioではなくRatioを使用していました...

于 2020-11-05T11:02:49.077 に答える