単一の配列要素の値を区切り記号として扱う単純なトークナイザー クラスが C++ で作成されています。区切り文字が見つかるまでバッファを埋めます。一連の "->" ではなく、U+2192 右向き矢印 '→' を含むより大きな区切り文字セットをサポートするには、より大きな文字セットを使用したいと考えています。これがこれまでの私の結論です
- トークナイザーは配列要素で動作するため、UTF-8 は US-ASCII よりも多くの文字を提供しません。
- UTF-16 は、実際に機能するより多くの文字を提供しますが、UTF-8 と複数要素エンコーディングであるという特性を共有しています。
- UCS-2 非推奨ですが、この場合には理想的でした
- UCS-4 ファイルで使用されない
- UTF-32 UCS-4 と同じですが、将来的には多要素になる可能性がありますが、現時点ではありません。
ソースを Windows (UTF-16) と Linux (UTF-8) 間のクロスプラットフォームにしたい。
[編集]
内部で UTF-16 を使用することにしました。これにより、複数の要素を使用せずにシンボルの大規模なセットがサポートされます。また、Windows プラットフォームでの変換を回避できます。