を使用するBreakIterator.getWordInstance()
と、テキスト"can't"
は 1 つの「単語」と見なされます
少し実験すると、単語内のアポストロフィは単語の一部と見なされます。両端のアポストロフィは、単語とは別のものと見なされます。つまり、アポストロフィと文字の間で単語の境界が報告されます。
これにより、 や のような単語"'tis"
は"dogs'"
、綴りが正しくても、「単語」と見なされなくなります。
この動作を修正する方法はありますか、それともバグですか?