c# - 正しい文字列テキストを取得する方法は？

Question

この文字列で表される正しいUnicode文字を取得しようとしています。

string originalString = "\u0605\u04c3\u5000\u0000\u5000\ufd00\u4400\ud500\u7600\ud300\u4f00\ubc00\u0c00\u2d00\u4000\ue400\u0e00\u7400\u4800\ub700\u1d00\u1300\ue900\u6000\u4c00\ufb00\u9900\u3900\ud900\u6700\uae00\ueb00\u8f00\u2800\u0200\ub300\u5c00\ufe00\u0100\u3d00\u9100\u3000\u0300\u1600\u0100\u7000\u6200\u8e00\u1d00\u8e00\u6200\ua900\u6300\uc800\u0900\ub700\ub000\u6000\ue400\u9200\u3f00\u9100\u8d00\uef00\u3600\u0100\u9e00\u0081";

csファイルにハードコーディングすると、デバッグモードで正しい文字が表示されることがわかりますが、ファイルに正確な文字列を書き込んで読み込もうとすると、文字列がそのまま表示されます。ファイル。

TextReader tr = new StreamReader("c:\\test.txt");
string tmpString = tr.ReadLine();
tr.Close();

byte[] array = Encoding.Unicode.GetBytes(tmpString );
string finalResult = Encoding.Unicode.GetString(array);

finalResult文字列に正しいUnicode文字を含めるにはどうすればよいですか？

よろしくお願いしますGonçalo

編集：すでに配置しようとしました

TextReader tr = new StreamReader("c:\\test.txt",Encoding.Unicode);

しかし、文字は正しいものとは異なります。

score 1 · Accepted Answer

ファイルには実際にコンテンツが含まれていますか？

\ u0605 \ u04c3 \ u5000 \ u0000 \ u5000 \ ufd00 \ u4400 \ ud500 \ u7600 \ ud300 \ u4f00 \ ubc00 \ u0c00 \ u2d00 \ u4000 \ ue400 \ u0e00 \ u7400 \ u4800 \ ub700 \ u1d00 \ u1300 \ ue900 \ u6000 \ u4c00 \ ufb00 \ u9900 \ u3900 \ ud900 \ u6700 \ uae00 \ ueb00 \ u8f00 \ u2800 \ u0200 \ ub300 \ u5c00 \ ufe00 \ u0100 \ u3d00 \ u9100 \ u3000 \ u0300 \ u1600 \ u0100 \ u7000 \ u6200 \ u8e00 \ u1d00 \ u6200 \ ua900 \ u6300 \ uc800 \ u0900 \ ub700 \ ub000 \ u6000 \ ue400 \ u9200 \ u3f00 \ u9100 \ u8d00 \ uef00 \ u3600 \ u0100 \ u9e00 \ u0081

その場合、各シーケンスを対応するUnicode文字に変換する必要があります

    string originalString = "\u0605\u04c3\u5000\u0000\u5000\ufd00\u4400\ud500\u7600\ud300\u4f00\ubc00\u0c00\u2d00\u4000\ue400\u0e00\u7400\u4800\ub700\u1d00\u1300\ue900\u6000\u4c00\ufb00\u9900\u3900\ud900\u6700\uae00\ueb00\u8f00\u2800\u0200\ub300\u5c00\ufe00\u0100\u3d00\u9100\u3000\u0300\u1600\u0100\u7000\u6200\u8e00\u1d00\u8e00\u6200\ua900\u6300\uc800\u0900\ub700\ub000\u6000\ue400\u9200\u3f00\u9100\u8d00\uef00\u3600\u0100\u9e00\u0081";
    string tmpString = "\\u0605\\u04c3\\u5000\\u0000\\u5000\\ufd00\\u4400\\ud500\\u7600\\ud300\\u4f00\\ubc00\\u0c00\\u2d00\\u4000\\ue400\\u0e00\\u7400\\u4800\\ub700\\u1d00\\u1300\\ue900\\u6000\\u4c00\\ufb00\\u9900\\u3900\\ud900\\u6700\\uae00\\ueb00\\u8f00\\u2800\\u0200\\ub300\\u5c00\\ufe00\\u0100\\u3d00\\u9100\\u3000\\u0300\\u1600\\u0100\\u7000\\u6200\\u8e00\\u1d00\\u8e00\\u6200\\ua900\\u6300\\uc800\\u0900\\ub700\\ub000\\u6000\\ue400\\u9200\\u3f00\\u9100\\u8d00\\uef00\\u3600\\u0100\\u9e00\\u0081";

    string finalResult = Regex.Replace(tmpString, @"\\u(....)", match => ((char)int.Parse(match.Groups[1].Value, System.Globalization.NumberStyles.HexNumber)).ToString());

score 0 · Accepted Answer

ファイルの読み取り中に、エンコーディングをパラメータとして使用できます

   TextReader tr = new StreamReader("c:\\test.txt",Encoding.Unicode);
   string unicode_string = tr.ReadLine();

score 0 · Accepted Answer

次のようなものを試してください：

TextReader streamReader = new StreamReader("c:\\test.txt");
string input = streamReader.ReadLine();
string[] chars = input.Split(new char[] { '\\', 'u' }, 
    StringSplitOptions.RemoveEmptyEntries);
streamReader.Close();

string answer = string.Empty;
foreach (string charachter in chars)
{
    byte byte1 = byte.Parse(string.Format("{0}{1}", 
        charachter[0], charachter[1]), NumberStyles.AllowHexSpecifier);
    byte byte2 = byte.Parse(string.Format("{0}{1}", 
        charachter[2], charachter[3]), NumberStyles.AllowHexSpecifier);
    answer += Encoding.Unicode.GetString(new byte[] { byte2, byte1 });
}

c# - 正しい文字列テキストを取得する方法は？

3 に答える 3

Related

Reference