追加のノイズワードを決定するのに役立つ全文インデックスをクエリする方法はありますか?私はいくつかのカスタムノイズワードを追加したいと思います、そして提案を決定するのを助けるためにインデックスを分析する方法があるかどうか疑問に思いました。
2 に答える
と同じくらい簡単
これが説明されているところ(それを行う方法)。しかし、適切なものを思い付くのは難しいです。
SQL Serverの全文索引付けでの関連性の計算に満足できなかったため、lucene.netを調べることにしました。
私はなんとかすべてのコンテンツを非常に迅速に索引付けする方法を理解し、次にルークを使用してノイズのある単語を見つけました。この分析に基づいて、SQLサーバーのノイズファイルを編集しました。これで、SQLサーバーの全文索引を使用して適切に機能する検索ソリューションができましたが、将来的にはlucene.netに移行する予定です。
SQL Serverの全文索引をベースとして使用し、理解したツールを使用して関連するコンテンツを見つけるためのドメイン中心のアプローチを開発しました。真剣に考えてテストした後、私は他の多くの手段を使用して、用語の頻度と単語の距離についてテキストコンテンツを分析することによって提供されるもの以外に、検索結果の関連性を判断しました。SQL Serverの全文索引付けは素晴らしいスタートを切りました。そして今、私はluceneを使用して表現できる戦略を持っています。これは非常にうまく機能します。
Luceneを理解し、検索の戦略を立てるには、かなり長い時間がかかりました。誰かがまだこれを読んでいる場合は、アイデアをテストするために全文索引を使用し、ドメインで機能することがわかっている戦略ができたら、luceneに移動します。