[0-9A-Za-z_]
PHP正規表現エンジンをテストすると、単語文字のみと見なされていることがわかります。ヘブライ語などの非ASCII言語の文字は、単語文字として。と一致しません[\w]
。どの言語の文字とも一致するPHPまたはPerlの正規表現エスケープシーケンスはありますか?使用する予定のアルファベットごとに範囲を追加することもできますが、ユーザーは常に予期しない言語で私たちを驚かせます。
これはセキュリティフィルタリング用ではなく、テキストのトークン化用であることに注意してください。