データセットから抽出したいのは、類似した用語をすべて抽出し、それらに否定制約を付けてクエリを実行することです。例えば。
インデックス セットの場合、Blackberry と Nokia が 2 つの類似した用語であるとどのように推測できますか。または、2 つの類似商品があるとします。
これはsolrを介して達成できますか?? これは同義語ではありません。しかし、私が達成する必要がある類似性の制約。
データセットから抽出したいのは、類似した用語をすべて抽出し、それらに否定制約を付けてクエリを実行することです。例えば。
インデックス セットの場合、Blackberry と Nokia が 2 つの類似した用語であるとどのように推測できますか。または、2 つの類似商品があるとします。
これはsolrを介して達成できますか?? これは同義語ではありません。しかし、私が達成する必要がある類似性の制約。
確かにあなたが探している正確なケースではありませんが、Solr with Mahoutをチェックできます。Mahout は、トピック モデリング用のLDA
の
サポートを提供します。これにより、データセットからトピックをグループ化するのに役立ちます。
トピック モデルは、大まかに言うと、「トピック」の確率分布を各ドキュメントに関連付ける階層的なベイジアン モデルであり、トピックは単語の分布です。
たとえば、ニュースワイヤーのコレクションのトピックには、「野球」、「ホームラン」、「選手」などの「スポーツ」に関する単語が含まれている可能性があり、野球でのステロイド使用に関するドキュメントには、「スポーツ」、「薬物」が含まれている可能性があります。 、そして「政治」。「スポーツ」、「ドラッグ」、および「政治」というラベルは、人間によって割り当てられた事後的なラベルであり、アルゴリズム自体は関連する単語に確率を割り当てるだけであることに注意してください。これらのモデルにおけるパラメーター推定のタスクは、トピックが何であるか、
したがって、データセット内にモバイル用のドキュメントがある場合、blackberry、iphone、mobile などの用語のグループが得られます。
これらは類似した用語ではないかもしれませんが、同じトピックに関連しています。