Lucene.net を使用して、200 万件の製品のデータベース用の検索エンジンを作成しています。私は を使用してSnowball Analyzer
おり、これまでのところ、パフォーマンスと結果セットに非常に感銘を受けています。
克服できないと思われる 1 つの問題は、検索入力で欠落しているスペースを検出することです。
例えば:
ユーザーは「Black Diamond」ブランドの製品を探していますが、「blackdiamond」を検索しています。
Snowball アナライザーはTokens
Black Diamond に対して2 つの個別のデータを作成するため、 0の結果が得られます。
この問題を修正するには、どのような方法がありますか? (n-gram)を少し調べましたが、Shingle Analyzer
それが役立つかどうかはわかりません。
Shingle Analyzer
をと組み合わせることは可能ですかSpellChecker
(それは効果的な解決策でしょうか)? 「もしかして:ブラックダイヤモンド」で人々に促すことができたらいいのにと思います。これが発生したときにリンクします。