java - Apache Lucene TokenStream フィルター

Question

Apache Lucene ライブラリに関していくつか質問があります。

1) 2 つの TokenStream オブジェクトを 1 つの TokenStream オブジェクトに連結するにはどうすればよいですか?

2) TokenStream オブジェクトからすべての重複トークン (同じ値を持つ) を削除するために使用できるフィルターはどれですか?

前もって感謝します

score 0 · Accepted Answer

2 つのソースから連結する限りField、同じ名前の 2 つのインスタンスをDocument. これは、値が連結された単一のフィールドと同じであることが保証されています。

重複する用語を排除する限り、これは実際には必要ありません。Lucene は、より高いスコアを得るために、ドキュメントの用語頻度のみをカウントします。それが必要ない場合は、定数 1 としてSimilarity実装する独自のインスタンスを定義できます。tf

または、フィールドごとにのみ用語の頻度を無効にする必要がある場合は、を使用してインスタンス化できFieldますField.TermVector.NO。

1 に答える 1