solr - SOLR: (フィールドベースの) 相対用語頻度駆動結果の順序

Question

収集したすべてのコンテンツを、SOLR の主なソースである単一のコンテンツフィールドのレコードに統合しています。問題は、コンテンツフィールドに 100K 文字しかないレコードもあれば、10M 以上のレコードもあるということです。

その結果、任意の用語を検索すると、1,000 万文字のレコードが結果リストの一番上に押し出されます。

「相対用語頻度」のようなものを導入することで、これを制限/相殺したいと考えています。たとえば、出現数をコンテンツフィールドの単語の総数で割ったものです。人々がどの用語を検索するかわからないため (私が思うに)、インデックス作成時にこれを計算することはできません。

これを行う方法に関する提案/アイデアはありますか?

score 0 · Accepted Answer

Custom Similarityクラスから始めることができます。
これにより、上記のパラメーターとスコアリングファクターを変更できます。（期間の頻度）メソッド
を確認してカスタマイズする必要があります。 Custom Similarity クラスは、Schema.xml ファイルから参照できます。 tf

実際の実装であるlucene DefaultSimilarityクラスを参考に確認してください。

類似性の変更も確認してください

solr - SOLR: (フィールドベースの) 相対用語頻度駆動結果の順序

1 に答える 1

Related

Reference