次のクエリを指定すると、SQL と Lucene の間でランキング/スコアが大きく異なります。
[疑似コード] (解釈* の 3 以内の状態*) AND 矛盾
すべての結果がクエリ要件に準拠しているように見えるため、これはパーサーの問題ではないと思います。ただし、結果の上位 1000 では、172 の一般的な結果しか得られません。Lucene と SQL の両方からのすべての結果はクエリ要件に準拠しているように見えるため、私の唯一の推測は、スコアリングが根本的に異なるということです。SQL がスコアリングを処理する方法や、SQL と Lucene のスコアリングを比較する方法に関する情報を見つけるのに苦労しました。2 つのエンジンから同じ結果セットが得られるとは必ずしも期待していませんが、10% 以上の類似性を期待していたので、少なくとも大きな相違点を説明できる必要があります。
この重大な不一致をどのように説明できますか?