PHP では、文字の前後の分音符号\b
が単語の境界 ( ) を作成しますが、これは望ましい動作ではありません。他のプログラミング言語の中では普通ですか?\b
(ほとんどの言語でとに問題があることは知っています\w
) この問題を効果的に解決するにはどうすればよいですか?
Unicode の観点から、どの Unicode カテゴリが単語の境界を作成しますか?
それは例です:
<?php
preg_match_all('#\bج\b#u','مَجْل',$t); // the font of this site does not display diacritics
var_dump($t);