クライアントからUTF-8の有効な文字を受信することになっているソケットサーバーがあります。
問題は、一部のクライアント(主にハッカー)が間違った種類のデータをすべて送信していることです。
本物のクライアントは簡単に区別できますが、後で分析できるように、送信されたすべてのデータをファイルに記録しています。
œ
エラーの原因となるこのような文字が表示されることがありUnicodeDecodeError
ます。
これらの文字の有無にかかわらず、文字列UTF-8を作成できる必要があります。
アップデート:
私の特定のケースでは、ソケットサービスはMTAであったため、次のようなASCIIコマンドのみを受信することを期待しています。
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
私はこれらすべてをJSONで記録していました。
それから、善意のないそこにいる何人かの人々は、あらゆる種類のがらくたを送ることに決めました。
そのため、私の特定のケースでは、ASCII以外の文字を削除してもまったく問題ありません。