0

この挑戦に少し注目したい。

私の意図は、システム内で開発するための解決策を見つけることです。

私の会社(土木工学)のビジネスでは、次のシナリオがあります。

データベースに登録されている要素/材料がありますが、何千ものサプライヤーが同じ要素/材料を名前は異なるが類似しています。

したがって、XML を介して請求書から取得した要素 (セメントなど) のリストがあります。

一方、同じタイプの要素がデータベースに登録されていますが、名前が異なります (ほとんどの場合、それらはほぼ同じです)。名前を比較するような請求書リストで調べたいと思います。

名前を比較して「0」と「1」の間の値を持つベイジアンアルゴリズムに似たものはありますか? 「1」は 100% 同一の文字です。

例 (果物の要素の種類を変更します):

比較する必要がある場合:ラズベリー

Invoice List - Values of Algortim
---------------------------------
 strawberry ........ 0,89
 blueberry ......... 0,77
 cherry ............ 0,46
 grape ............. 0,11
 raspberry ......... 1,00
 pineapple ......... 0,13

完璧な組み合わせがない場合は、最も近い名前を見つけることが重要です。

他のテクニックはありますか?

皆さんの考えを見ていただければ幸いです。

4

1 に答える 1

6

私が完全にフォローしているかどうかはわかりませんが、2 つの文字列が互いにどのように類似しているかを計算する方法を探している場合は、これらの目的でよく使用されるLevenshtein Distanceを試すことができます。

後で結果を正規化して、希望する範囲にすることができます。たとえば、単純な正規化は次のようになります。

                                            distance(u,v)
normalized_distance(u,v) =               ----------------
                              max{distance(x,v) | for each x in the collection }
于 2012-07-18T13:09:33.130 に答える