Solr のファセット機能を使用してドキュメントの最も頻繁なインデックスを取得していますが、同様の用語の頻度を "マージ" できるかどうか疑問に思っていました (たとえば、レーベンシュタイン距離の助けを借りて)。
たとえば、 「コミュニケーションスキル」が 200 回出現し、「コミュニケーションスキル」が 100 回出現した場合、可能であれば「コミュニケーションスキル : 300 回」で Solr を戻すことはできますか?
ご協力ありがとうございました !
Solr は、挿入したものにファセットを作成します。そのため、挿入するCommunication skills
とCommunicating skills
結合するかどうかがわかりません。
ただし、できることは、ファイル内の同義語であるSynonymFilterFactory
定義する必要がある場所を使用することであり、Solr は に置き換えます。Communication skills
Communicating skills
Communicating skills
Communication skills
編集
を使用しPorterStemFilterFactory
て単語をステミングすることもできますが、これは単一のトークンで機能するため、トークンに分割してステミングし、それらを再び結合することを意味します。これには、ステミングによる悪影響もあります。