0

Solr のファセット機能を使用してドキュメントの最も頻繁なインデックスを取得していますが、同様の用語の頻度を "マージ" できるかどうか疑問に思っていました (たとえば、レーベンシュタイン距離の助けを借りて)。

たとえば、 「コミュニケーションスキル」が 200 回出現し、「コミュニケーションスキル」が 100 回出現した場合、可能であれば「コミュニケーションスキル : 300 回」で Solr を戻すことはできますか?

ご協力ありがとうございました !

4

1 に答える 1

0

Solr は、挿入したものにファセットを作成します。そのため、挿入するCommunication skillsCommunicating skills結合するかどうかがわかりません。

ただし、できることは、ファイル内の同義語であるSynonymFilterFactory定義する必要がある場所を使用することであり、Solr は に置き換えます。Communication skillsCommunicating skillsCommunicating skillsCommunication skills

編集

を使用しPorterStemFilterFactoryて単語をステミングすることもできますが、これは単一のトークンで機能するため、トークンに分割してステミングし、それらを再び結合することを意味します。これには、ステミングによる悪影響もあります。

于 2013-06-17T14:48:14.153 に答える