Lucene インデックスは tf-idf を重みとして使用しますか? ドキュメントごとに独自の統計と重みを定義して、それらを Lucene に「プラグイン」することは可能ですか?
2 に答える
1
はい、デフォルトのスコアリング アルゴリズムには tf-idf が組み込まれており、TFIDFSiilarity のドキュメントに完全に記載されています。
ドキュメントのスコアリングをカスタマイズするには、いくつかの方法があります。
- 最も単純で最も一般的な方法は、インデックス時にフィールドに、またはクエリ時にクエリ用語にブーストを組み込むことです。
- 多くのクエリ タイプは、そのクエリに使用されるスコアリングを変更します。例には、ConstantScoreQueryおよびDisjunctionMaxQueryが含まれます。
- 使用
Similarity
する は、スコアリング アルゴリズムを定義します。別のものを選択できます (例: BM25Similarity )。 - 独自の を実装できます
Similarity
。通常はDefaultSimilarity
、 、TFIDFSimilarity
、またはSimilarityBase
于 2013-07-10T07:25:21.913 に答える