c++ - STLでのUTF8からワイド文字への変換

Question

プラットフォームに依存しない方法で、std::string の UTF8 文字列を std::wstring に、またはその逆に変換することは可能ですか? Windows アプリケーションでは、MultiByteToWideChar と WideCharToMultiByte を使用します。ただし、コードは複数の OS 用にコンパイルされており、標準の C++ ライブラリに限定されています。

score 62 · Accepted Answer

私は5年前にこの質問をしました。当時、このスレッドは私にとって非常に役に立ちました。結論に達し、プロジェクトを進めました。過去からのそのプロジェクトとはまったく関係のない、最近似たようなものが必要だったのはおかしいです。考えられる解決策を探していたときに、自分の質問に出くわしました:)

私が選んだソリューションは、C++11 に基づいています。コンスタンティンが彼の回答で言及しているブーストライブラリは、標準の一部になりました。std::wstring を新しい文字列型 std::u16string に置き換えると、変換は次のようになります。

UTF-8 から UTF-16 へ

std::string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::u16string dest = convert.from_bytes(source);

UTF-16 から UTF-8

std::u16string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::string dest = convert.to_bytes(source);

他の回答からわかるように、問題には複数のアプローチがあります。そのため、受け入れられた答えを選ぶことを控えています。

score 25 · Accepted Answer

問題の定義では、8 ビット文字エンコーディングが UTF-8 であることが明示されています。これは些細な問題です。必要なのは、ある UTF 仕様から別の仕様に変換するために少しいじるだけです。

UTF-8、UTF-16、およびUTF-32のこれらの Wikipedia ページのエンコーディングを見てください。

原理は単純です。入力を調べて、1 つの UTF 仕様に従って 32 ビットの Unicode コードポイントを組み立て、次に別の仕様に従ってコードポイントを出力します。個々のコードポイントは、他の文字エンコーディングで必要となるような変換を必要としません。それがこの問題を単純にする理由です。

wchar_tここでは、UTF-8 への変換とその逆の簡単な実装を示します。入力がすでに適切にエンコードされていることを前提としています - 古いことわざ「ガベージイン、ガベージアウト」がここに適用されます。エンコーディングの検証は、別のステップとして行うのが最善だと思います。

std::string wchar_to_UTF8(const wchar_t * in)
{
    std::string out;
    unsigned int codepoint = 0;
    for (in;  *in != 0;  ++in)
    {
        if (*in >= 0xd800 && *in <= 0xdbff)
            codepoint = ((*in - 0xd800) << 10) + 0x10000;
        else
        {
            if (*in >= 0xdc00 && *in <= 0xdfff)
                codepoint |= *in - 0xdc00;
            else
                codepoint = *in;

            if (codepoint <= 0x7f)
                out.append(1, static_cast<char>(codepoint));
            else if (codepoint <= 0x7ff)
            {
                out.append(1, static_cast<char>(0xc0 | ((codepoint >> 6) & 0x1f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            else if (codepoint <= 0xffff)
            {
                out.append(1, static_cast<char>(0xe0 | ((codepoint >> 12) & 0x0f)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            else
            {
                out.append(1, static_cast<char>(0xf0 | ((codepoint >> 18) & 0x07)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 12) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            codepoint = 0;
        }
    }
    return out;
}

上記のコードは、UTF-16 と UTF-32 の両方の入力に対して機能しd800ますdfff。UTF-16 をデコードしていることを示します。wchar_t32 ビットであることがわかっている場合は、関数を最適化するためにいくつかのコードを削除できます。

std::wstring UTF8_to_wchar(const char * in)
{
    std::wstring out;
    unsigned int codepoint;
    while (*in != 0)
    {
        unsigned char ch = static_cast<unsigned char>(*in);
        if (ch <= 0x7f)
            codepoint = ch;
        else if (ch <= 0xbf)
            codepoint = (codepoint << 6) | (ch & 0x3f);
        else if (ch <= 0xdf)
            codepoint = ch & 0x1f;
        else if (ch <= 0xef)
            codepoint = ch & 0x0f;
        else
            codepoint = ch & 0x07;
        ++in;
        if (((*in & 0xc0) != 0x80) && (codepoint <= 0x10ffff))
        {
            if (sizeof(wchar_t) > 2)
                out.append(1, static_cast<wchar_t>(codepoint));
            else if (codepoint > 0xffff)
            {
                out.append(1, static_cast<wchar_t>(0xd800 + (codepoint >> 10)));
                out.append(1, static_cast<wchar_t>(0xdc00 + (codepoint & 0x03ff)));
            }
            else if (codepoint < 0xd800 || codepoint >= 0xe000)
                out.append(1, static_cast<wchar_t>(codepoint));
        }
    }
    return out;
}

これが 32 ビットであることがわかっている場合wchar_tは、この関数から一部のコードを削除できますが、この場合は違いはありません。式sizeof(wchar_t) > 2はコンパイル時に認識されるため、適切なコンパイラはデッドコードを認識して削除します。

score 24 · Accepted Answer

24

UTF8-CPP: ポータブルな方法で C++ を使用した UTF-8

于 2008-09-29T14:42:30.987 に答える

score 23 · Accepted Answer

Boostシリアライゼーションライブラリ utf8_codecvt_facetから抽出できます。

使用例:

  typedef wchar_t ucs4_t;

  std::locale old_locale;
  std::locale utf8_locale(old_locale,new utf8_codecvt_facet<ucs4_t>);

  // Set a New global locale
  std::locale::global(utf8_locale);

  // Send the UCS-4 data out, converting to UTF-8
  {
    std::wofstream ofs("data.ucd");
    ofs.imbue(utf8_locale);
    std::copy(ucs4_data.begin(),ucs4_data.end(),
          std::ostream_iterator<ucs4_t,ucs4_t>(ofs));
  }

  // Read the UTF-8 data back in, converting to UCS-4 on the way in
  std::vector<ucs4_t> from_file;
  {
    std::wifstream ifs("data.ucd");
    ifs.imbue(utf8_locale);
    ucs4_t item = 0;
    while (ifs >> item) from_file.push_back(item);
  }

ブーストソース内のファイルをutf8_codecvt_facet.hpp探します。utf8_codecvt_facet.cpp

score 13 · Accepted Answer

これを行うにはいくつかの方法がありますが、結果はstringおよびwstring変数の文字エンコーディングによって異なります。

stringが ASCII であることがわかっている場合は、単純にwstringのイテレータコンストラクタを使用できます。

string s = "This is surely ASCII.";
wstring w(s.begin(), s.end());

ただし、他のエンコーディングを使用している場合stringは、非常に悪い結果が得られます。エンコーディングが Unicode の場合は、あらゆる種類の Unicode エンコーディングとの間で変換するクロスプラットフォームのライブラリセットを提供するICU プロジェクトを参照してください。

コードページに文字が含まれている場合、string$DEITY があなたの魂を慈悲してくれるかもしれません。

score 2 · Accepted Answer

codecvtlocale ファセットを使用できます。役に立つかもしれない特定の特殊codecvt<wchar_t, char, mbstate_t>化が定義されていますが、その動作はシステム固有であり、UTF-8 への変換を保証するものではありません。

score -1 · Accepted Answer

I don't think there's a portable way of doing this. C++ doesn't know the encoding of its multibyte characters.

As Chris suggested, your best bet is to play with codecvt.

c++ - STLでのUTF8からワイド文字への変換

8 に答える 8

Related

Reference