私たちは、電気材料データベース (コンジット、ケーブルなど) のファジー検索を提供しようとしています。問題は、すべての素材タイプに一貫性がないため、テキストの説明とは別のフィールドにサイズを分割できなかったことです。一部の素材はサイズ以外で評価されているためです。
全文検索とレーベンシュタイン検索アルゴリズムの SQL CLR 実装を組み合わせて (ランキングを支援するために) 試みましたが、私の結果は少しおかしなものです (つまり、ランキングが不適切なため、正しくソートされていません)。
たとえば、検索用語が "3/4" ABCD Conduit" の場合、次の順序でいくつかの無関係な結果が返される可能性があります。
1/2" コンジット 1/4" X 3/4" ケーブル 1/4" ケーブルタイ 3/4" DFC コンジットティー 3/4" ABCD コンジット 3/4" コンジット
私は、これら 2 つの検索アルゴリズムが句読点と数字の関連性を考慮していないという事実に問題を突き止めたと思います。つまり、このような検索では、説明の残りのあいまい一致よりもサイズが優先されると思いますが、結果にはそれが反映されていません。
私の質問は次のとおりです。英数字と句読点の組み合わせを検索するのにより適した、より優れた検索アルゴリズムまたは別のアプローチを推奨できる人はいますか?