0

lucene Standard Analyzer を使用してドキュメントのインデックスを作成しているときに、問題が発生しました。

例: 私のドキュメントには「plag-iarism」という単語がありました...ここでは、このアナライザーは「plag」および「iarism」としてインデックスを付けました。しかし、私は「盗作」が好きです。単語全体を取得するにはどうすればよいですか?

4

1 に答える 1

0

StandardAnalyzer は、tokanization を StandardTokenizer に委譲します。正確なニーズに合わせて独自の tokanizer を作成します (StandardTokenizer に基づいて作成できます)。

または、必要に応じて、関連する正規表現を使用して String.replace() の汚いハックを実行できます。アナライザーのみが実行されます。うん。醜い。

于 2012-10-13T00:10:00.087 に答える