c++ - char* 文字列にマルチバイト文字が含まれているかどうかをテストします

Question

Unicode 文字を形成するマルチバイト文字を含む可能性がある TCP サーバーからバイトストリームバッファを受信しました。これらの文字を検出するために BOM をチェックする方法が常にあるのか、それともどうしたいのか疑問に思っていましたか?

score 9 · Accepted Answer

データが UTF-8 であることがわかっている場合は、上位ビットを確認するだけです。

または、リード/トレイルバイトを区別する必要がある場合:

score 3 · Accepted Answer

UTF-8 では、8 番目のビットがオンになっているものはすべて、マルチバイトコードポイントの一部です。したがって、基本的(0x80 & c)!=0に各バイトをチェックするのがこれを行う簡単な方法です。

score 2 · Accepted Answer

マルチバイト文字を検出する方法はたくさんありますが、残念ながら...どれも信頼できません。

これが返された Web リクエストである場合は、ヘッダーを確認してください。Content-Type ヘッダーは、多くの場合、ページのエンコードを示しているためです (これは、マルチバイト文字の存在を示している可能性があります)。

BOM は無効な文字であり、通常のテキストには表示されないため、BOM を確認することもできます。ただし、それらはオプションであり、多くの場合存在しません (実装、構成などによって異なります)。

score 1 · Accepted Answer

BOM はほとんどオプションです。受信元のサーバーがマルチバイト文字を処理している場合、サーバーはこれを知っていると想定し、BOM 用に 2 バイトを保存します。受信したデータがマルチバイト文字列である可能性が高いかどうかを確認する方法を求めていますか?

5 に答える 5