問題タブ [stringdist]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python関数で文字列を使用するときに「近い一致」を受け入れますか?
最短パス関数を使用して、グラフ内の文字列間の距離を見つけようとしています。問題は、カウントしたい近似一致が時々あることです。たとえば、「通信」を「通信」としてカウントしたり、「ネットワーク デバイス」を「ネットワーク デバイス」としてカウントしたりします。Pythonでこれを行う方法はありますか? (たとえば、単語の語根を抽出する、文字列の距離を計算する、またはおそらく複数形/動名詞/スペルミスなどの単語形式の関係が既にある Python ライブラリ)。データベース内のすべてのアイテムと完全に一致しますが、これをきれいに保つのは困難です。
例えば:
これを行う簡単または迅速な方法について何か考えはありますか? または、おそらく近似一致の強さを受け入れることについて考える別の方法...または、文字列が一致しない場合のエラー処理の改善でしょうか?
r - 2 つの文字列の最適な類似距離メトリック
一致させる会社名がたくさんあります。たとえば、次の文字列を一致させたいとします。A&A PRECISION
とA&A PRECISION ENGINEERING
ただし、私が使用するほぼすべての類似度: ハミング距離、レーベンシュタイン距離、制限付きダメラウ-レーベンシュタイン距離、完全なダメラウ-レーベンシュタイン距離、最長共通部分文字列距離、Q グラム距離、コサイン距離、ジャカード距離ジャロ、ジャロ-ウィンクラー距離など
一致:B&B PRECISION代わりに。
部分文字列とそのシーケンスの正確さをより重視し、文字列の長さをあまり気にしないメトリクスはどれですか? メトリックが常に間違って選択するのは、文字列の長さのためだと思います。