Solr が提供する、比較的単純な Lucene インデックスがあります。インデックスは、タイトルと本文の 2 つの主要なフィールドと、あまり重要でないいくつかのフィールドで構成されます。
ほとんどの検索エンジンは、本文よりもタイトルに一致する結果の方が関連性が高くなります。タイトル フィールドにインデックス時のブーストを提供し始めます。
私の質問は、人々は通常、タイトル フィールドにどのような値を使用するのでしょうか? 2? 4? 10? 100?
本体の長さの中央値をタイトルの長さの中央値で割ることをお勧めします。これにより、おおよそ係数Mが得られます。本文に単語がM回出現する場合、タイトルに1回出現します。ここで、M*3のようなものを使用します。もちろん、これは合理化されたヒューリスティックであり、値を反復処理するのが最善です。より構造化された議論については、GrantIngersollの「検索における関連性の問題のデバッグ」を参照してください。