この質問を実際にどのように行うべきか正確にはわかりません。また、答えを見つけるにはほど遠いので、誰かが私を助けてくれることを願っています.
リモート ホストに接続し、バイト データを受信する Python アプリを作成しています。このデータは、Python の組み込み struct モジュールを使用して解凍します。文字列には複数の文字エンコーディングが含まれているため、私の問題は文字列にあります。このような文字列の例を次に示します。
"^Lこれは、複数の ^Jcharacter エンコーディングを持つ ^Gstring の例です"
異なるエンコーディングが開始および終了する場所は、特別なエスケープ文字を使用してマークされます。
- ^L - ラテン語 1
- ^E - 中央ヨーロッパ
- ^T - トルコ語
- ^B - バルト海
- ^J - 日本語
- ^C - キリル文字
- ^G - ギリシャ語
などなど... この種の文字列を Unicode に変換する方法が必要ですが、その方法が本当にわかりません。私は Python のコーデックと string.encode/decode について調べましたが、実際にはそれほど賢明ではありません。また、ホストによって文字列がどのように出力されるかを制御できないことにも言及する必要があります。
誰かがこれを始める方法を手伝ってくれることを願っています。