私の使用例 - ローマ数字が TokenStream の最後にある場合、それを英数字に変換します。それ以外の場合はそのままにしてください。
元。「サムシングⅢ」 >>> 「サムシング3」。でも「III 何か」 >>> 「III 何か」 (最後に III が来ないのと同じ)
このロジックを Lucene で正確に機能させるにはどうすればよいですか?
ps input.incrementToken() は最初に true を返し、次に WhitespaceTokenizer によって生成された TokenStream のすべての用語に対して false を返すようです。