自分のサイトを utf-8 を使用するように変換した後、すべての受信 utf データを検証して、その有効性と一貫性を確保するという見通しに直面しています。
文字列が utf かどうかを検出するためのさまざまな正規表現と PHP API があるようですが、私が見たものは不完全なようです (utf を検証するが、無効な 3 番目のバイトを許可する正規表現など)。
また、長すぎるエンコード、つまりマルチバイトの utf シーケンスとしてエンコードできる ASCII 文字の検出 (および防止) についても懸念しています。
提案やリンクは大歓迎です!