java - lucene の shingleanalyzerwrapper + standardanalyzer + indexreader を使用するにはどうすればよいですか?

Question

この問題を解決できることを願っています。私がやろうとしていること: 適切なテキストが与えられた場合、ストップワードを含まない (つまり、ストップワードは既に削除されている) 語幹化されたすべてのトークン ngram の頻度をカウントしたいと考えています。

これが状況です:私はShingleAnalyzerWrapper + StandardAnalyzerを使用してIndexWriterでいくつかのテキストにインデックスを付けています.IndexWriterにドキュメントを追加するとき(このように:indexwriter.addDocument(doc、analyzer);アナライザーは再びShingleAnalyzerWrapper + StandardAnalyzerです)。

しかし、問題は次のとおりです。用語の頻度と用語を取得すると、ストップワードが下線に置き換えられているようです。

これが入力です:
String text = "to i want to to i want to linked";
文字列 text2 = "スーパーバイバイハード簡単";

ご不明な点がございましたら、お気軽にお問い合わせください。

助けてくれてありがとう

score 0 · Accepted Answer

いくつかの解決策については、 http://www.lucidimagination.com/search/document/e5681676403a007b/can_i_omit_shinglefilter_s_filler_tokensを参照してください。

この場合、ストップワードがあった場所に「穴」を導入したくないため、ストップフィルターの位置インクリメントを無効にする必要があるように思われます。

java - lucene の shingleanalyzerwrapper + standardanalyzer + indexreader を使用するにはどうすればよいですか?

1 に答える 1

Related

Reference