0

私はいくつかのグーグルをしましたが、明確な答えを見つけることができませんでした(おそらく正しい用語を使用していませんか?)

とにかく、C++ プログラムで処理したい ANSI 形式 (WCP-1252) のテキスト ファイルがいくつかありますが、10 進コード 128 から念のために、次のコードを試しました。

ifstream infile("textfile.txt");
char c;
infile>>c;                           //also tried infile.get(c);  
cout<<c;

当然のことながら、1 バイトの char は 0x7F の後に拡張セットからのシンボルを格納できませんでした (最初のバイトの値に対応する ASCII シンボルを表示し、2 番目のバイトを破棄しただけだと思います)。

4

1 に答える 1

0

WCP-1252 は 8 ビットで表されますが、一部の文字は ASCII の一部ではありません。WCP-1252 から wchar_t への変換テーブルを作成することをお勧めします。char ごとに読み取り、wchar_t に変換します。マップ < uint8_t, wchar_t > を書くことができます。例えば:

wchar_t WCP1252Towc( char ch )
{
    static map< char, wchar_t > table
    {

        {0x30, L'0' },
        {0x31, L'1' },
        // ..
        {0x39, L'9'},

        {0x40, L'A'},
        // ...
        {0x5A, L'Z'},

        {0x61, L'a'},
        // ...
        {0x7A, L'z'},

        // ...
    };

    return table[ ch ]; 
};  

wstring WCP1252sTowcs( string str )
{
    const auto len = str.size();
    wstring res( len, L'\0' );

    for( size_t i = 0; i < len; ++i )
        res[ i ] = WCP1252Towc( str[ i ] );

    return res;
}

ifstream infile("textfile.txt");
string line; getline( infile, line );
auto unicode = WCP1252sTowcs( line );
wcout << unicode;
于 2013-12-07T11:48:53.633 に答える