1

ドキュメントの類似性スコアが、たとえば 0 (一致なし) から 1 (完全なドキュメントとクエリの一致) の範囲になるように Solr を構成することは可能ですか。

ありがとう!

4

4 に答える 4

0

ある種のUIメーターにこれが必要ですか?おそらく、ドキュメント間のコサイン類似性(http://en.wikipedia.org/wiki/Cosine_similarity )を確認する必要があります。ここで、最初のドキュメントはクエリです。

于 2011-01-18T23:25:54.003 に答える
0

いいえ、ブールクエリについて話しているわけではありませんが、Lucene Similarity & Scoring のリソースに感謝します。

さて、私は情報検索のための言語モデルの線に沿って考えています & lucene/solr にこれの実装があるかどうか誰かが知っているかどうか疑問に思っています

http://nlp.stanford.edu/IR-book/html/htmledition/language-models-for-information-retrieval-1.html

于 2011-01-21T15:37:59.617 に答える
0

いいえ、tf-idf はそのようには機能しません。概念的には、検索は実際にはそのようには機能しません。「完全一致」をどのように定義しますか?

于 2010-05-30T14:57:42.890 に答える
0

可能なはずです。lucene ランキング関数を変更する必要があります (solr は内部で lucene を使用しています)。デフォルトの実装を置き換えることができます。実行するのにどれくらいの時間が必要かはわかりませんが、ブール検索エンジンが本当に必要な場合は実行できます。このドキュメントから調査を開始する必要があります。

そのような機能が何のために必要なのかはわかりませんが、Solr をキー バリュー ストアとして使用したいのではないでしょうか。このような場合は、インデックス作成の構成を変更する必要があります。アナライザーは入力テキストをトークン化しないようにする必要があります。その場合、テキストは変更されずにインデックスに配置されます (クエリの処理には同じアナライザーが使用されます)。したがって、クエリでキー (フィールド "MY_KEY" の "1234") を指定すると、このキーに対応するドキュメントが取得されます。

于 2011-01-19T21:26:54.243 に答える