問題タブ [codepoint]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
14707 参照

regex - これらの Unicode 文字 (コードポイント) は、この正規表現で何を意味しますか?

私は次の正規表現を持っています: 私は次のような部分のほとんどを見つけました:

検証式の最後の部分を理解するのに助けが必要です:

誰でもこれが何を意味するのか分かりますか?

0 投票する
4 に答える
20241 参照

unicode - Unicodeコードポイントを指定するために「U+」が使用されるのはなぜですか?

0 投票する
4 に答える
28507 参照

c# - Unicode 文字列を RTF に出力する方法 (C# を使用)

Unicode 文字列を RTF 形式で出力しようとしています。(c# と winform を使用)

ウィキペディアから

Unicode エスケープが必要な場合は、制御語 \u が使用され、その後に Unicode コードポイント番号を示す 16 ビットの符号付き 10 進整数が続きます。Unicode をサポートしないプログラムのために、指定されたコード ページでのこの文字の最も近い表現がこの後に続く必要があります。たとえば、\u1576? Unicode をサポートしていない古いプログラムでは、代わりに疑問符としてレンダリングする必要があることを指定して、アラビア文字 beh を指定します。

Unicode 文字を Unicode コードポイント ("\u1576") に変換する方法がわかりません。UTF 8 や UTF 16 などへの変換は簡単ですが、codepoint への変換方法がわかりません。

私がこれを使用するシナリオ:

  • 既存の RTF ファイルを文字列に読み込みます (テンプレートを読み込んでいます)
  • string.replace #TOKEN# を MyUnicodeString に置き換えます (テンプレートにデータが入力されます)
  • 結果を別の RTF ファイルに書き込みます。

問題、Unicode 文字が到着したときに発生

0 投票する
2 に答える
230 参照

validation - 入力検証でUNICODEコードポイントのサブセットを許可するにはどうすればよいですか?

私は英語圏以外の市場に「国際化」できるサービスを作成しています。ユーザー名をASCII文字範囲に制限したくありませんが、ユーザーが「自然な」ユーザー名を指定できるようにしたいと思います。OK、UNICODEを使用します(そして、ユーザー名のテキストエンコーディングとしてUTF-8と言います)。

だが!「シンボル」コードポイントを含む「名前以外の」ユーザー名をユーザーに作成させたくありません。たとえば、√√√√√√øøøøøのようなユーザー名を許可したくありません。

特定のユーザー名を受け入れる/拒否するために(おそらく正規表現で)チェックできるUNICODEの「シンボル」コードポイントのリストはありますか?

ありがとう!

0 投票する
5 に答える
2099 参照

unicode - Unicodeに重複文字があるのはなぜですか?

Unicodeでいくつかの重複文字を見ることができます。たとえば、文字「C」は、コードポイントU+0043およびU+0421で表すことができます。なんでそうなの?

0 投票する
1 に答える
1900 参照

unicode - Haskell: Unicode 整数を実際の Unicode 文字に変換する

Haskell 関数に入力が与えられたとします。これは、Unicode コード ポイントの番号であるはずです。これを対応する文字に変換するにはどうすればよいですか?

例:

123 ~ '{'.

0 投票する
4 に答える
4513 参照

perl - Perl で Unicode コードポイント (\uXXXX) を文字に変換するにはどうすればよいですか?

いくつかの Unicode コードポイント (\u5315\u4e03\u58ec\u4e8c\u4e0a\u53b6\u4e4b) があり、それらが表す実際の文字に変換する必要があります。

そうする最も簡単な方法は何ですか?

0 投票する
3 に答える
973 参照

python - Pythonを使用してユニコード文字列のアクセント付き文字をユニコード文字コードに変換する方法は?

u'é'ユニコード文字列のようなユニコード文字コードを変換する方法を知りたいu'\xe9'ですか?

0 投票する
4 に答える
3769 参照

perl - PerlでUTF8文字列を数値に変換する

例えば、

数値を印刷したい

0 投票する
2 に答える
718 参照

.net - (私のものよりも)より自然な並べ替えを書く

私はここにこの質問への答えを追加しました:自然なソート順を必要とするC#でのソートList<String>、埋め込まれた数値を処理するもの。

しかし、私の実装は素朴であり、アプリケーションが物事を想定してUnicodeを正しく処理しない方法に関するすべての投稿の代わりに(トルコは誰かをテストしますか?)、より良い実装を書くための助けを求めたいと思いました。または、.NETの組み込みメソッドがある場合は、教えてください:)

その質問の答えの私の実装は、文字列を調べて、文字ごとに比較し、両方の数字に遭遇するまで続けます。次に、両方の文字列から連続する数字を抽出します。これにより、長さが変化する可能性があり、最短のものに先行ゼロを埋めてから、比較します。

ただし、問題があります。

たとえば、文字列xに2つのコードポイントがあり、それらが一緒になって文字Èを作成しているのに、もう1つの文字列には、その文字であるコードポイントが1つしかない場合はどうでしょうか。

私のアルゴリズムは、発音区別符号を1文字として扱い、他の文字列のÈと比較するため、これらのアルゴリズムでは失敗します。

誰かがこれを適切に処理する方法を教えてもらえますか?CultureInfoドイツの「ss」と「ß」の比較など、言語の問題を処理するオブジェクトを指定するためのサポートが必要です。

個々のコードポイントではなく、「実際の文字」(ここでは実際の用語はわかりません)を列挙するようにコードを取得する必要があると思います。

これに対する正しいアプローチは何ですか?

また、「自然」が「人間が期待する方法」を意味する場合、私は次のことを熟考するために追加します。

  • 日時はどうですか?
  • 浮動小数点値はどうですか?
  • 「自然」と見なされる他のシーケンスはありますか?
    • これをどこまで伸ばす必要がありますか?(Eeny、meeny、miny、moe)