0

この問題を解決できることを願っています。私がやろうとしていること: 適切なテキストが与えられた場合、ストップワードを含まない (つまり、ストップワードは既に削除されている) 語幹化されたすべてのトークン ngram の頻度をカウントしたいと考えています。

これが状況です:私はShingleAnalyzerWrapper + StandardAnalyzerを使用してIndexWriterでいくつかのテキストにインデックスを付けています.IndexWriterにドキュメントを追加するとき(このように:indexwriter.addDocument(doc、analyzer);アナライザーは再びShingleAnalyzerWrapper + StandardAnalyzerです)。

しかし、問題は次のとおりです。用語の頻度と用語を取得すると、ストップワードが下線に置き換えられているようです。

これが入力です:
String text = "to i want to to i want to linked";
文字列 text2 = "スーパー バイ バイ ハード 簡単";

これは出力です:
term: |freq:6
term:
_|freq:2
term:_ hard|freq:1
term:_ i|freq:2
term:_ link|freq:1
term:easy|freq:1
term :hard|freq:1
term:hard easy|freq:1
term:i|freq:2
term:欲しい|freq:2
term:link|freq:1
term:super|freq:1
term:super _|freq: 1
term:want|freq:2
term:want _|freq:2

ご不明な点がございましたら、お気軽にお問い合わせください。

助けてくれてありがとう

4

1 に答える 1

0

いくつかの解決策については、 http://www.lucidimagination.com/search/document/e5681676403a007b/can_i_omit_shinglefilter_s_filler_tokensを参照してください。

この場合、ストップワードがあった場所に「穴」を導入したくないため、ストップフィルターの位置インクリメントを無効にする必要があるように思われます。

于 2011-05-12T15:27:17.367 に答える