この問題を解決できることを願っています。私がやろうとしていること: 適切なテキストが与えられた場合、ストップワードを含まない (つまり、ストップワードは既に削除されている) 語幹化されたすべてのトークン ngram の頻度をカウントしたいと考えています。
これが状況です:私はShingleAnalyzerWrapper + StandardAnalyzerを使用してIndexWriterでいくつかのテキストにインデックスを付けています.IndexWriterにドキュメントを追加するとき(このように:indexwriter.addDocument(doc、analyzer);アナライザーは再びShingleAnalyzerWrapper + StandardAnalyzerです)。
しかし、問題は次のとおりです。用語の頻度と用語を取得すると、ストップワードが下線に置き換えられているようです。
これが入力です:
String text = "to i want to to i want to linked";
文字列 text2 = "スーパー バイ バイ ハード 簡単";
これは出力です:
term: |freq:6
term: _|freq:2
term:_ hard|freq:1
term:_ i|freq:2
term:_ link|freq:1
term:easy|freq:1
term :hard|freq:1
term:hard easy|freq:1
term:i|freq:2
term:欲しい|freq:2
term:link|freq:1
term:super|freq:1
term:super _|freq: 1
term:want|freq:2
term:want _|freq:2
ご不明な点がございましたら、お気軽にお問い合わせください。
助けてくれてありがとう