0

単一の配列要素の値を区切り記号として扱う単純なトークナイザー クラスが C++ で作成されています。区切り文字が見つかるまでバッファを埋めます。一連の "->" ではなく、U+2192 右向き矢印 '→' を含むより大きな区切り文字セットをサポートするには、より大きな文字セットを使用したいと考えています。これがこれまでの私の結論です

  • トークナイザーは配列要素で動作するため、UTF-8 は US-ASCII よりも多くの文字を提供しません。
  • UTF-16 は、実際に機能するより多くの文字を提供しますが、UTF-8 と複数要素エンコーディングであるという特性を共有しています。
  • UCS-2 非推奨ですが、この場合には理想的でした
  • UCS-4 ファイルで使用されない
  • UTF-32 UCS-4 と同じですが、将来的には多要素になる可能性がありますが、現時点ではありません。

ソースを Windows (UTF-16) と Linux (UTF-8) 間のクロスプラットフォームにしたい。

[編集]

内部で UTF-16 を使用することにしました。これにより、複数の要素を使用せずにシンボルの大規模なセットがサポートされます。また、Windows プラットフォームでの変換を回避できます。

4

0 に答える 0