apache - Apachesolr-このスコアに似ています

Question

次の2つのフィールドのみを持つ約1000のドキュメントを含む小さなインデックスがあります：-id（文字列）-content（text_general）

同様のコンテンツをIDでMLT検索すると、元のドキュメント（検索されたIDはID）のスコアが5.241327であることに気付きました。1：1の重複ドキュメントがあり、重複コンテンツの場合、スコア=1.5258181が返されます。なんで？100％重複しているのに5.241327ではないのはなぜですか。

もう1つの質問は、クエリでテキストを渡すことにより、コンテンツごとに類似性ドキュメントを取得できるかどうかです。例：

/mlt/?q=content:Some encoded long text&mlt.fl=content

同様のコンテンツがアップロードされているかどうかを確認しようとしています。確認は、新しいコンテンツのアップロード時に実行する必要があります。

score 0 · Accepted Answer

いくつかの異なるパラメータを試す価値があるかもしれません。また、1つのフィールドでのみMLTを使用し、次のパラメーターを使用します。

'mlt.boost'：'true'、'mlt.fl'：'my_field_name'、'mlt.maxqt'：1000、'mlt.mindf'： '0'、'mlt.mintf'： '0'、'qt '：' mlt'、'行'：' 10 '

パラメーターの説明については、http：//wiki.apache.org/solr/MoreLikeThisを参照してください。インデックスが小さい場合は、mindfが重要であり、デフォルトのmintf（項の頻度）が2であることがわかります。したがって、IDは1つの項のみであると想定しているため、これはおそらく無視されます。

apache - Apachesolr-このスコアに似ています

2 に答える 2

Related

Reference