JavaでUnicodeテキストの正規表現を書いています。ただし、私が使用している特定のスクリプト(デーバナーガリー(0900〜097F))では、単語の境界に問題があります。\ bは、従属母音(093E-094Cなど)である文字と一致します。これらはスペース文字のように扱われるためです。
例:次の文字列があるとします。同様に最後の言葉で。これにより、\bは「कमाल」の「ल」を正規表現\b \ w \ bと一致させますが、これは言語によっては正しくありません。
この例がお役に立てば幸いです。
特定の文字と一致しないことを除いて、\ bのように動作する正規表現を記述できますか?フィードバックはありがたいです。