search - Apache lucene 逆索引

翻译自：https://stackoverflow.com/questions/17562900 2013-07-10T05:17:17.520

845 次

0

Lucene インデックスは tf-idf を重みとして使用しますか? ドキュメントごとに独自の統計と重みを定義して、それらを Lucene に「プラグイン」することは可能ですか?

2 に答える 2

1

はい、デフォルトのスコアリングアルゴリズムには tf-idf が組み込まれており、TFIDFSiilarity のドキュメントに完全に記載されています。

ドキュメントのスコアリングをカスタマイズするには、いくつかの方法があります。

最も単純で最も一般的な方法は、インデックス時にフィールドに、またはクエリ時にクエリ用語にブーストを組み込むことです。
多くのクエリタイプは、そのクエリに使用されるスコアリングを変更します。例には、ConstantScoreQueryおよびDisjunctionMaxQueryが含まれます。
使用Similarityするは、スコアリングアルゴリズムを定義します。別のものを選択できます (例: BM25Similarity )。
独自のを実装できますSimilarity。通常はDefaultSimilarity、、TFIDFSimilarity、またはSimilarityBase

于 2013-07-10T07:25:21.913 に答える