27

C++11 の正規表現を Unicode 文字列で使用したい場合、それらは char* を UTF-8 として使用できますか、それとも wchar_t* 文字列に変換する必要がありますか?

4

4 に答える 4

16

使用しているコンパイラとシステムをテストする必要がありますが、理論的には、システムに UTF-8 ロケールがあればサポートされます。次のテストでは、Clang/OS X で true が返されました。

bool test_unicode()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcdéfg"), pattern);

    std::locale::global(old);

    return result;
}

注: これは、UTF-8 でエンコードされたファイルにコンパイルされています。


安全のために、明示的な 16 進バージョンの文字列も使用しました。それも機能しました。

bool test_unicode2()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcd\xC3\xA9""fg"), pattern);

    std::locale::global(old);

    return result;
}

更新 test_unicode()はまだ機能します

$ file regex-test.cpp 
regex-test.cpp: UTF-8 Unicode c program text

$ g++ --version
Configured with: --prefix=/Applications/Xcode-8.2.1.app/Contents/Developer/usr --with-gxx-include-dir=/usr/include/c++/4.2.1
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix
InstalledDir: /Applications/Xcode-8.2.1.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin
于 2012-06-29T03:32:20.150 に答える
2

C ++ 11の正規表現は、「動作」の最小限の定義のために、UTF-8で問題なく「動作」します。UTF-8文字列の「完全な」Unicode正規表現サポートが必要な場合は、http://www.pcre.org/などの直接サポートするライブラリを使用することをお勧めします。

于 2012-06-29T01:10:23.337 に答える
-1

はい、そうです。これは UTF-8 エンコーディングの設計によるものです。文字列がコードポイントの配列ではなくバイトの配列として扱われる場合、部分文字列操作は正しく機能するはずです。

このエンコーディングの設計でこれがどのように達成されるかについては、http ://www.utf8everywhere.org/#faq.validation の FAQ #18 を参照してください。

于 2012-06-29T20:46:32.880 に答える