0

文字列を UTF8 として読み取っています (ファイルからではなく、BOM をチェックできません)。問題は、元のテキストが別のエンコーディングで形成されているのに、UTF8 に変換されていることがあるということです。

この文字列が実際の UTF8 ではないことを検出できますか?
ありがとう!

4

1 に答える 1

1

いいえ、ただのバイトです。必要に応じて、さまざまな変換を試したり、辞書に有効な単語があるかどうかを調べたりして、推測を試みることもできますが、理論的な意味では、データ自体について何かを知らなければ、つまり、特定の文字が使用されていないことを知っていなければ不可能です。または、常に特定の文字を使用する、または特定の辞書にある単語がほとんど含まれているなどです。人には意味不明に見えるかもしれませんが、コンピューターには「意味不明」を定量化する方法がありません。

于 2013-08-08T16:03:25.010 に答える