Apache Lucene ライブラリに関していくつか質問があります。
1) 2 つの TokenStream オブジェクトを 1 つの TokenStream オブジェクトに連結するにはどうすればよいですか?
2) TokenStream オブジェクトからすべての重複トークン (同じ値を持つ) を削除するために使用できるフィルターはどれですか?
前もって感謝します
Apache Lucene ライブラリに関していくつか質問があります。
1) 2 つの TokenStream オブジェクトを 1 つの TokenStream オブジェクトに連結するにはどうすればよいですか?
2) TokenStream オブジェクトからすべての重複トークン (同じ値を持つ) を削除するために使用できるフィルターはどれですか?
前もって感謝します
2 つのソースから連結する限りField
、同じ名前の 2 つのインスタンスをDocument
. これは、値が連結された単一のフィールドと同じであることが保証されています。
重複する用語を排除する限り、これは実際には必要ありません。Lucene は、より高いスコアを得るために、ドキュメントの用語頻度のみをカウントします。それが必要ない場合は、定数 1 としてSimilarity
実装する独自のインスタンスを定義できます。tf
または、フィールドごとにのみ用語の頻度を無効にする必要がある場合は、 を使用してインスタンス化できField
ますField.TermVector.NO
。