0

Lucene インデックスは tf-idf を重みとして使用しますか? ドキュメントごとに独自の統計と重みを定義して、それらを Lucene に「プラグイン」することは可能ですか?

4

2 に答える 2

1

はい、デフォルトのスコアリング アルゴリズムには tf-idf が組み込まれており、TFIDFSiilarity のドキュメントに完全に記載されています。

ドキュメントのスコアリングをカスタマイズするには、いくつかの方法があります。

  • 最も単純で最も一般的な方法は、インデックス時にフィールドに、またはクエリ時にクエリ用語にブーストを組み込むことです。
  • 多くのクエリ タイプは、そのクエリに使用されるスコアリングを変更します。例には、ConstantScoreQueryおよびDisjunctionMaxQueryが含まれます。
  • 使用Similarityする は、スコアリング アルゴリズムを定義します。別のものを選択できます (例: BM25Similarity )。
  • 独自の を実装できますSimilarity。通常はDefaultSimilarity、 、TFIDFSimilarity、またはSimilarityBase
于 2013-07-10T07:25:21.913 に答える