問題タブ [astral-plane]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 4 バイトの UTF-8 文字を入力するにはどうすればよいですか?
さまざまなバイト長の utf-8 文字でテストする必要がある小さなアプリを作成しています。
たとえば、次のようにして、1、2、および 3 バイトの utf-8 でエンコードされた Unicode 文字を入力してテストできます。
しかし、どうすれば 4 バイトでエンコードされた Unicode 文字を取得できますか? 私が試してみました:
私が理解している限り、出力する必要があります。しかし、それを印刷するとᴶ0になります
私は何が欠けていますか?
編集:
先行ゼロを追加して動作させました:
もっと早く考えていればよかったです:)
c# - パターンに\Uxxxxxxxx文字を含むC#正規表現
スロー:System.ArgumentException:"[-]"-[xy]範囲を逆の順序で解析します。
\U00010000と\U0010FFFの16進値を見ると、最初の文字が0xd800 0xdc00、2番目の文字が0xdbff0xdfffになります。
ですから、私には本当に1つの問題があると思います。\ Uで形成されたUnicode文字が文字列内で2つの文字に分割されるのはなぜですか?
c# - .NET 文字列から Unicode コード ポイントの配列を取得するにはどうすればよいでしょうか?
文字列をチェックする必要がある文字範囲制限のリストがありchar
ますが、.NET の型は UTF-16 であるため、一部の文字は奇抜な (サロゲート) ペアになります。char
したがって、内のすべての を列挙するstring
と、32 ビットの Unicode コード ポイントが取得されず、高い値との比較が失敗する場合があります。
必要に応じて自分でバイトを解析できるほど Unicode を十分に理解していますが、C#/.NET Framework BCL ソリューションを探しています。そう ...
a を32 ビット Unicode コード ポイントstring
の配列 ( ) に変換するにはどうすればよいですか?int[]
unicode - Windows で U+FFFF を超える Unicode 文字を表示する
私が EVC++ 4 で開発しているアプリケーションは Windows CE 5 で動作し、ユニコードをサポートする必要があります (AFAIK wchar_t は Windows で UTF-16 を使用するため、それを使用しています)。文字。特に、2 バイトだけでなく UTF-16 で 4 バイトを使用する文字の場合。したがって、そのような文字をテキストエディター (組み込みデバイスではなく、Windows XP を搭載したデスクトップ PC の atm) で表示しようとしています。
しかし、私はまだそうすることができていません。例として、このキャラクターを選択しました。ここで述べたように、 「MPH 2B ダマーゼ」はこのキャラクターをサポートする必要があります。そこで、フォントをダウンロードして Windows\Fonts に入れました。次の内容のhexeditorを使用して(念のため)テキストファイルを作成しました。
メモ帳 (Unicode 対応である必要がありますよね?) で開いて、ダウンロードしたフォントを使用すると、意図したとおりに 1 文字が表示されませんが、この 2:
私は何を間違っていますか?:)
ありがとう!
フルニエル
編集: 提案されているように、BOM を反転しても機能しません。この場合、メモ帳 (および私が試した他のすべてのエディター) には 2 つの四角形が表示されます。興味深いのは、ここで 2 つの正方形を (firefox で) コピーすると、正しい文字が表示されることです。
Komodo Edit でも試してみましたが、同じ結果でした。UTF-8 を使用しても、メモ帳には役立ちません。
unicode - 補助機は必要ですか?
質問は非常に単純だと思います。基本プレーンの後に Unicode の残りのすべてが必要ですか? どのようなものが含まれており、それは本当に必要ですか? (そして何の目的で?)
ありがとう。
c# - int を使用してアストラル プレーンの Unicode コード ポイントをコンソールに出力する
関連する質問はこちらをご覧ください。
ただし、(または)char
に移動します。(または)、ゴシック文字の Faihuを書く必要があるため、そのキャストは機能しません。つまり、正しい整数を取得します。つまり、サロゲートペアを計算しますが、それを「レンダリング」する方法がわかりません。グリフとして出力される文字に変換します。0xffff
65535
0xd800df46
66374
int
char
\Unnnn を使用できないことに注意してください... まあ、理論的な理由です。
ありがとうございました。
mysql - Mysql サーバーは、4 バイトでエンコードされた utf8 文字をサポートしていません
Sql Server から MySql db へのデータ転送コンポーネントを実行中にサーバー エラーが発生しました。エラーメッセージは次のとおりです。
[MySql][ODBC 5.1 Driver][mysqld-5.0.67-community-nt-log]Server does not support 4-byte encoded UTF8 characters.
ソース Sql Server テーブルには nvarchar 列が含まれ、ターゲット MySql テーブルには varchar 列が含まれます。
誰でもこの問題に光を当てることができますか?
java - Java の Unicode 補足多言語面
JavaでSMP(Supplementary Multilingual Plane)を使いたいです。実際には、コードポイントが 0xFFFF を超える文字を出力したいと考えています。このコード行を使用しました:
特殊文字のコードポイントを持つ。しかし、このユニコード文字をコンソールに出力するにはどうすればよいでしょうか?
よろしくお願いいたします。
utf-8 - UTF-8 を使用してエンコードする場合、1 文字あたり 3 バイト以上を必要とする言語はありますか? どれ?
一般的に使用されるofc、クリンゴンはカウントされません:-)
ありがとう、みんな、 willItFit() テストケースを実行させてください
OK、今、UTF-8 でバイトを保存すると、解決するよりも多くの問題を引き起こしていることがわかりました。ありがとうございます。
javascript - BMP 外の JavaScript 文字列
BMP はBasic Multilingual Plane です
JavaScriptによると: 良い部分:
JavaScript は、Unicode が 16 ビットの文字セットであったときに構築されたため、JavaScript のすべての文字は 16 ビット幅です。
このことから、JavaScript は (UTF-16 ではなく) UCS-2 を使用し、U+FFFF までの文字しか処理できないと思われます。
さらに調査すると、次のことが確認されます。
このfromCharCode
メソッドは、Unicode 文字を返すときに下位 16 ビットのみを使用しているようです。U+20001 (CJK 統一表意文字 20001) を取得しようとすると、代わりに U+0001 が返されます。
質問: JavaScript でポスト BMP 文字を処理することはまったく可能ですか?
2011-07-31: Unicode Support Shootout のスライド 12: The Good, The Bad, & the (mostly) Uglyは、これに関連する問題を非常によくカバーしています: