7

説明のために、これがフォーラム サービスであると仮定しましょう。結果が次のようになるように、各ユーザーの投稿間の「類似性」を計算する必要があります。

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

私はマルチバイト文字列を扱っているので、ここで検索エンジンに行き詰まっていると思います。私たちはすでに Solr を使用しており、moreLikeThis も実装していますが、クエリの作成方法がよくわかりません。どんな助けでも大歓迎です!

4

3 に答える 3

1

おそらくCarrot2に興味があるでしょう(そしてそれに関連するこのブログ)

于 2011-09-15T19:09:15.737 に答える
0

2 つの意味で奇妙な質問: 1. なぜ SOLR に対処しなければならないのですか? 2. 類似性の種類は、対象の問題によって異なります。あなたの質問は私にはあまりにも一般的に聞こえます。意味的類似性の領域で進行中の研究があります。編集距離アルゴリズムがありますが、これはおそらくあなたが望むものではありません。

したがって、質問をより正確に定義すると、より良い回答が得られます。

于 2011-07-27T20:30:00.187 に答える
0

類似性にはいくつかの尺度がありますが、単純で効果的なものはコサイン類似性です。Smith-Watermanなどのより洗練されたものもあり、

http://sourceforge.net/projects/simmetrics/を見てください。

于 2011-12-09T05:18:41.533 に答える