ストリームからバイトシーケンスを読み取っています。議論のために、シーケンスが固定長であり、すべてをバイト配列に読み込んだと仮定します(私の場合はそうvector<char>
ですが、この質問では重要ではありません)。このバイトシーケンスには文字列が含まれています。文字列はutf-16またはutf-8エンコーディングのいずれかです。残念ながら、それがどれであるかを示す指標はありません。
バイトシーケンスが有効なutf-16エンコーディングを表しているかどうか、またそれが有効なutf-8エンコーディングを表しているかどうかを確認できますが、同じバイトシーケンスが有効なutf-8と有効なutf-16である可能性をイメージすることもできます。同時に。
それで、それはそれがどれであるかを一般的に理解する方法がないことを意味しますか?