次の2つのフィールドのみを持つ約1000のドキュメントを含む小さなインデックスがあります:-id(文字列)-content(text_general)
同様のコンテンツをIDでMLT検索すると、元のドキュメント(検索されたIDはID)のスコアが5.241327であることに気付きました。1:1の重複ドキュメントがあり、重複コンテンツの場合、スコア=1.5258181が返されます。なんで?100%重複しているのに5.241327ではないのはなぜですか。
もう1つの質問は、クエリでテキストを渡すことにより、コンテンツごとに類似性ドキュメントを取得できるかどうかです。例:
/mlt/?q=content:Some encoded long text&mlt.fl=content
同様のコンテンツがアップロードされているかどうかを確認しようとしています。確認は、新しいコンテンツのアップロード時に実行する必要があります。