c++ - gcc "-finput-charset=CharSet" など、MSVC++ でのソース文字セットエンコーディングの指定

Question

エンコーディングを扱うサンプルプログラムをいくつか作成したいと考えています。具体的には、次のようなワイド文字列を使用したいと考えています。

wstring a=L"grüßen";
wstring b=L"שלום עולם!";
wstring c=L"中文";

これらはサンプルプログラムだからです。

これは、ソースコードを UTF-8 でエンコードされたテキストとして扱う gcc ではまったく問題ありません。ただし、単純なコンパイルは MSVC では機能しません。エスケープシーケンスを使用してエンコードできることはわかっていますが、読みやすいテキストとして保持したいと考えています。

これを機能させるために、"cl" のコマンドラインスイッチとして指定できるオプションはありますか? gcc'c のようなコマンドラインスイッチはあります-finput-charsetか?

そうでない場合、どのようにテキストをユーザーにとって自然にすることを提案しますか?

注: BOM を UTF-8 ファイルに追加することは、他のコンパイラではコンパイルできなくなるため、オプションではありません。

注 2: MSVC バージョン >= 9 == VS 2008 で動作させる必要があります

本当の答え:解決策はありません

score 14 · Accepted Answer

「遅刻はしないよりはまし」というモットーに賛同する人のために、Visual Studio 2015 (コンパイラのバージョン 19) がこれをサポートするようになりました。

新しい/source-charsetコマンドラインスイッチを使用すると、ソースファイルの解釈に使用する文字セットエンコーディングを指定できます。これは、 IANAまたは ISO 文字セット名のいずれかである単一のパラメーターを取ります。

/source-charset:utf-8

または特定のコードページの 10 進数の識別子 (ドットが前に付く):

/source-charset:.65001

公式ドキュメントはこちらです。Visual C++ チームブログには、これらの新しいオプションについて説明した詳細な記事もあります。

まったく同じように機能する補完的な/execution-charsetスイッチもありますが、実行可能ファイルで生成される文字リテラルと文字列リテラルの範囲を制御します。/utf-8最後に、との両方を設定するショートカットスイッチが/source-charset:utf-8あり/execution-charset:utf-8ます。

これらのコマンドラインオプションは、oldおよびディレクティブと互換性がなく、すべてのソースファイルにグローバルに適用されます。#pragma setlocale#pragma execution-character-set

ユーザーが古いバージョンのコンパイラに固執している場合、最良のオプションは、ソースファイルを BOM 付きの UTF-8 として保存することです (他の回答が示唆しているように、IDE は保存時にこれを実行できます)。コンパイラはこれを自動的に検出し、適切に動作します。GCC も同様です。GCC は、窒息死することなくソースファイルの先頭で BOM を受け入れ、このアプローチを機能的に移植可能にします。

score 8 · Accepted Answer

エンコーディングコンボでFile->Advances Save Options... 選択を開きます。Unicode(UTF-8 with signature) - Codepage 65001コンパイラは、選択されたエンコーディングを自動的に使用します。

ここのマイクロソフトの回答によると：

非ASCII文字が必要な場合、それらを取得するための「公式」で移植可能な方法は、\u（または\U）16進数エンコーディングを使用することです（これは、単純に醜く、エラーが発生しやすいことに同意します）。

コンパイラは、BOM を持たないソースファイルに直面すると、ファイルを一定距離先読みして、Unicode 文字を検出できるかどうかを確認します。検出できない場合は、特に UTF-16 と UTF-16BE を探します。いずれかが見つからない場合、MBCS があると見なされます。この場合、MBCS にフォールバックし、これが問題の原因であると思われます。

明示的であることは本当に最善であるため、それが完璧な解決策ではないことはわかっていますが、 BOM を使用することをお勧めします。

Jonathan Caves
Visual C++ コンパイラチーム。

適切な解決策は、テキスト文字列をリソースファイルに配置することです。便利でポータブルな方法です。gettextなどのローカリゼーションライブラリを使用して翻訳を管理できます。

score 2 · Accepted Answer

使用したフロー: ファイルを BOM 付きの UTF8 として保存し、Linux と Windows 間で同じソースを共有します。Linux の場合: BOM を削除するためにコンパイルコマンドでソースファイルを前処理し、中間の非 BOM ファイルで g++ を実行します。

score 1 · Accepted Answer

VSの場合、次を使用できます。

#pragma setlocale( "[locale-string]" )

ロケールのデフォルトのANSIコードページがファイルエンコーディングとして使用されます。

ただし、一般に、ユーザーに表示される文字列をコードにハードコーディングすることはお勧めできません。それらをある種のリソースに保存します。ローカリゼーション、簡単なスペルチェックと更新などに適しています。

score 1 · Accepted Answer

私見では、すべての C++ ソースファイルは厳密な ASCII である必要があります。エディターがサポートしている場合、コメントは UTF-8 にすることができます。
これにより、コードはプラットフォーム、エディター、およびソース管理システム間で移植可能になります。

\uUnicode 文字をワイド文字列に挿入するために使用できます。

std::wstring str = L"\u20AC123,00"; //€123,00

c++ - gcc "-finput-charset=CharSet" など、MSVC++ でのソース文字セット エンコーディングの指定

5 に答える 5

Related

Reference

c++ - gcc "-finput-charset=CharSet" など、MSVC++ でのソース文字セットエンコーディングの指定