10

ReadAllTextでファイルを読んでいます

    String[] values = File.ReadAllText(@"c:\\c\\file.txt").Split(';');

    int i = 0;

    foreach (String s in values)
    {
        System.Console.WriteLine("output: {0} {1} ", i, s);
        i++;
    }

いくつかのファイルを読み込もうとすると、間違った文字が返されることがあります(ÖÜÄÀ...の場合)。出力は「?」のようになります。これは、エンコードに問題があるためです。

output: 0 TEST
output: 1 A??O?

1つの解決策は、ReadAllTextでエンコーディングを設定することです。たとえば、そのようなものReadAllText(@"c:\\c\\file.txt", Encoding.UTF8)で問題を解決できるとしましょう。しかし、それでも「?」出力として?ファイルのエンコーディングがわからない場合はどうなりますか?そして、すべてのファイルが異なるエンコーディングを取得した場合はどうなりますか?C#でそれを行うための最良の方法は何でしょうか?ありがとうございました

4

3 に答える 3

9

これを確実に行う唯一の方法は、テキストファイルの先頭にあるバイト順マークを探すことです。(このブロブは、より一般的には、使用される文字エンコードのエンディアンを表しますが、エンコード(UTF8、UTF16、UTF32など)も表します)。残念ながら、この方法はUnicodeベースのエンコーディングでのみ機能し、それ以前は機能しません(信頼性の低い方法を使用する必要があります)。

このStreamReaderタイプは、これらのマークを検出してエンコーディングを決定することをサポートしています。パラメータにフラグを渡すだけで、次のようになります。

new System.IO.StreamReader("path", true)

次に、の値をチェックしstremReader.CurrentEncodingて、ファイルで使用されているエンコーディングを判別できます。ただし、バイトエンコーディングマークが存在しない場合は、CurrentEncodingデフォルトで。になりますEncoding.Default

エンコーディングを検出するには、codeprojectソリューションを参照してください

于 2012-05-25T11:18:49.130 に答える
7

最初にファイルのエンコーディングを確認する必要があります。これを試して

System.Text.Encoding enc = null; 
System.IO.FileStream file = new System.IO.FileStream(filePath, 
    FileMode.Open, FileAccess.Read, FileShare.Read); 
if (file.CanSeek) 
{ 
    byte[] bom = new byte[4]; // Get the byte-order mark, if there is one 
    file.Read(bom, 0, 4); 
    if ((bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf) || // utf-8 
        (bom[0] == 0xff && bom[1] == 0xfe) || // ucs-2le, ucs-4le, and ucs-16le 
        (bom[0] == 0xfe && bom[1] == 0xff) || // utf-16 and ucs-2 
        (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff)) // ucs-4 
    { 
        enc = System.Text.Encoding.Unicode; 
    } 
    else 
    { 
        enc = System.Text.Encoding.ASCII; 
    } 

    // Now reposition the file cursor back to the start of the file 
    file.Seek(0, System.IO.SeekOrigin.Begin); 
} 
else 
{ 
    // The file cannot be randomly accessed, so you need to decide what to set the default to 
    // based on the data provided. If you're expecting data from a lot of older applications, 
    // default your encoding to Encoding.ASCII. If you're expecting data from a lot of newer 
    // applications, default your encoding to Encoding.Unicode. Also, since binary files are 
    // single byte-based, so you will want to use Encoding.ASCII, even though you'll probably 
    // never need to use the encoding then since the Encoding classes are really meant to get 
    // strings from the byte array that is the file. 

    enc = System.Text.Encoding.ASCII; 
}
于 2012-05-25T11:20:09.980 に答える
0

私の場合、いくつかの単純なjsonファイルを作成していて、同じエラーが発生していました。問題は、Visual Studioを使用してファイルを作成することでした(現時点では2019年)。

この問題に対処するために、VSオプションでいくつかの構成を見つけることができると確信しています。しかし、私が見つけた最も迅速な方法は、Notepad++を使用して同じファイルとコンテンツを作成することでした。エンコーディングのトップメニューにアクセスして、Notepad++でエンコーディングを設定できます。また、他のテキストエディタでも同様の設定を見つけることができると思います。

于 2021-11-22T01:09:41.853 に答える