php - PHPのmb文字列と通常文字列について

Question

文字列が mb 文字列であることを確認するにはどうすればよいですか? strlen の代わりに mb_strlen を使用しますか?

score 7 · Accepted Answer

文字列のエンコーディングと、それがマルチバイトかどうかを常に把握しておく必要があります。mb_strlen()結局、信頼できる結果を得るには、文字列のエンコーディングをの 2 番目のパラメータとして渡す必要がありますね。

入力データのエンコーディングは、常に何らかの方法で定義されます。フォームデータを処理するときのページのエンコーディング。データベースデータを処理するときのデータベース接続とテーブルのエンコーディング。等々。何がどのエンコーディングでどこにあるのかを常に把握できるようにフローを構築するのは、あなたの仕事です。

唯一の例外は、コンテンツのエンコーディングが適切に宣言されていない任意のサードパーティデータを扱っている場合です。mb-detect-encoding()や同僚のようなスニッフィング機能を使用してもよいのは、そのときだけです。これらの関数は非常にエラーが発生しやすく、文字列がどのエンコーディングに含まれているかは経験に基づいた推測のみを提供し、信頼性の高い情報ではないことに注意してください。

score 2 · Accepted Answer

いいえ、文字列は文字列です。複数のバイト文字が含まれているかどうかを確認する方法はありません。

mb_detect_encoding() のようなもので推測できますが、走行距離は文字セットとエンコーディングによって異なる場合があります。たとえば、UTF-8 には非常に明確なパターンがあり、非常に良い結果が得られます。しかし、GB2312 などの他のエンコーディングは検出が非常に困難です。

新しいプロトコルまたはシステムを設計している場合は、エンコード情報を保持することをお勧めします。

score 2 · Accepted Answer

strlen と mb_strlen の結果を比較し、一致しない場合、文字列にはマルチバイト文字が含まれています。

score 1 · Accepted Answer

そのために使用されないmb_check_encoding、またはmb_detect_encoding使用されるはずですか？

php - PHPのmb文字列と通常文字列について

4 に答える 4

Related

Reference