1

次の2つのフィールドのみを持つ約1000のドキュメントを含む小さなインデックスがあります:-id(文字列)-content(text_general)

同様のコンテンツをIDでMLT検索すると、元のドキュメント(検索されたIDはID)のスコアが5.241327であることに気付きました。1:1の重複ドキュメントがあり、重複コンテンツの場合、スコア=1.5258181が返されます。なんで?100%重複しているのに5.241327ではないのはなぜですか。

もう1つの質問は、クエリでテキストを渡すことにより、コンテンツごとに類似性ドキュメントを取得できるかどうかです。例:

/mlt/?q=content:Some encoded long text&mlt.fl=content

同様のコンテンツがアップロードされているかどうかを確認しようとしています。確認は、新しいコンテンツのアップロード時に実行する必要があります。

4

2 に答える 2

0

いくつかの異なるパラメータを試す価値があるかもしれません。また、1つのフィールドでのみMLTを使用し、次のパラメーターを使用します。

'mlt.boost':'true'、'mlt.fl':'my_field_name'、'mlt.maxqt':1000、'mlt.mindf': '0'、'mlt.mintf': '0'、'qt ':' mlt'、'行':' 10 '

パラメーターの説明については、http://wiki.apache.org/solr/MoreLikeThisを参照してください。インデックスが小さい場合は、mindfが重要であり、デフォルトのmintf(項の頻度)が2であることがわかります。したがって、IDは1つの項のみであると想定しているため、これはおそらく無視されます。

于 2012-12-04T09:08:19.790 に答える