solr RemoveDuplicatesTokenFilterFactoryが機能しない理由へのフォローアップ質問?
単語の位置に関係なく、Solrで重複した単語を削除するにはどうすればよいですか?
例えば:
Field value: text word word text word word
Expected tokens after X filter: text word
solr RemoveDuplicatesTokenFilterFactoryが機能しない理由へのフォローアップ質問?
単語の位置に関係なく、Solrで重複した単語を削除するにはどうすればよいですか?
例えば:
Field value: text word word text word word
Expected tokens after X filter: text word
これを実現するために、独自のTokenFilterを作成するのは非常に簡単です。簡単ではないかもしれないことの1つは、位置の増分の処理です(このフィールドでフレーズクエリのスパンを実行することに関心がある場合)。開始方法がわからない場合は、StopFilterの実装を確認できます。
「FilteringTokenFilter」から新しいフィルタークラスを作成しました。タスクは非常に簡単です。リストに追加する前に確認します。
簡単なプラグインを作成しました重複する単語を削除します
プラグインをロードするには、JARファイル(EliminateDuplicate-*。jarとともに、mvnpackageコマンドまたはhttps://github.com/volkan/lucene-solr-filter-eliminateduplicate/tree/master/solr/を実行して作成できます)。 lib)Solrホームディレクトリのlibディレクトリにあります。libディレクトリーの場所は、solr.xmlファイルの近くにあります。