solr - ドキュメントセット間の類似性の測定

Question

説明のために、これがフォーラムサービスであると仮定しましょう。結果が次のようになるように、各ユーザーの投稿間の「類似性」を計算する必要があります。

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

私はマルチバイト文字列を扱っているので、ここで検索エンジンに行き詰まっていると思います。私たちはすでに Solr を使用しており、moreLikeThis も実装していますが、クエリの作成方法がよくわかりません。どんな助けでも大歓迎です！

score 1 · Accepted Answer

1

おそらくCarrot2に興味があるでしょう（そしてそれに関連するこのブログ）

于 2011-09-15T19:09:15.737 に答える

score 0 · Accepted Answer

2 つの意味で奇妙な質問: 1. なぜ SOLR に対処しなければならないのですか? 2. 類似性の種類は、対象の問題によって異なります。あなたの質問は私にはあまりにも一般的に聞こえます。意味的類似性の領域で進行中の研究があります。編集距離アルゴリズムがありますが、これはおそらくあなたが望むものではありません。

したがって、質問をより正確に定義すると、より良い回答が得られます。

score 0 · Accepted Answer

類似性にはいくつかの尺度がありますが、単純で効果的なものはコサイン類似性です。Smith-Watermanなどのより洗練されたものもあり、

http://sourceforge.net/projects/simmetrics/を見てください。

solr - ドキュメント セット間の類似性の測定

3 に答える 3

Related

Reference

solr - ドキュメントセット間の類似性の測定