solr - 類似語を抽出 Solr

Question

データセットから抽出したいのは、類似した用語をすべて抽出し、それらに否定制約を付けてクエリを実行することです。例えば。

インデックスセットの場合、Blackberry と Nokia が 2 つの類似した用語であるとどのように推測できますか。または、2 つの類似商品があるとします。

これはsolrを介して達成できますか？? これは同義語ではありません。しかし、私が達成する必要がある類似性の制約。

score 0 · Accepted Answer

確かにあなたが探している正確なケースではありませんが、Solr with Mahoutをチェックできます。Mahout は、トピックモデリング用のLDA
のサポートを提供します。これにより、データセットからトピックをグループ化するのに役立ちます。

トピックモデルは、大まかに言うと、「トピック」の確率分布を各ドキュメントに関連付ける階層的なベイジアンモデルであり、トピックは単語の分布です。
たとえば、ニュースワイヤーのコレクションのトピックには、「野球」、「ホームラン」、「選手」などの「スポーツ」に関する単語が含まれている可能性があり、野球でのステロイド使用に関するドキュメントには、「スポーツ」、「薬物」が含まれている可能性があります。、そして「政治」。「スポーツ」、「ドラッグ」、および「政治」というラベルは、人間によって割り当てられた事後的なラベルであり、アルゴリズム自体は関連する単語に確率を割り当てるだけであることに注意してください。これらのモデルにおけるパラメーター推定のタスクは、トピックが何であるか、

したがって、データセット内にモバイル用のドキュメントがある場合、blackberry、iphone、mobile などの用語のグループが得られます。
これらは類似した用語ではないかもしれませんが、同じトピックに関連しています。

solr - 類似語を抽出 Solr

1 に答える 1

Related

Reference