収集したすべてのコンテンツを、SOLR の主なソースである単一のコンテンツ フィールドのレコードに統合しています。問題は、コンテンツ フィールドに 100K 文字しかないレコードもあれば、10M 以上のレコードもあるということです。
その結果、任意の用語を検索すると、1,000 万文字のレコードが結果リストの一番上に押し出されます。
「相対用語頻度」のようなものを導入することで、これを制限/相殺したいと考えています。たとえば、出現数をコンテンツ フィールドの単語の総数で割ったものです。人々がどの用語を検索するかわからないため (私が思うに)、インデックス作成時にこれを計算することはできません。
これを行う方法に関する提案/アイデアはありますか?