問題タブ [utf-32]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - java: UTF-32 から UTF-16 へのコンバーター
Javaエスケープコードを取得しようとしています。
例:1F612
==>\ud83d\ude12
私は試した:
formatUTF 関数:
しかし、出力:
注: 1F612
16 進数 =128530
整数
助けてください。
c++ - Unicode、UTF-8、UTF-16、および UTF-32 に関する質問
Unicode、ASCII、コード ページ、すべての歴史、UTF-8、UTF-16 (UCS-2)、UTF-32 (UCS-4) の発明、およびそれらの使用者などについてよく読んでいますが、まだいくつかの質問があり、答えを見つけるのに苦労しましたが、できませんでした。助けていただければ幸いです。
1 - Unicode は文字をエンコードするための標準であり、各文字のコード ポイントを指定します。U+0000 のようなもの (例)。これらのコード ポイント (\u0000) を含むファイルがあると想像してください。アプリケーションのどのポイントでそれを使用するのでしょうか?
これはばかげた質問かもしれませんが、アプリケーションのどの時点でそれを使用するのか本当にわかりません。エスケープを使用してこれらのコードポイントを持つファイルを読み取ることができるアプリケーションを作成しています\u
。それを読み取ってデコードできることはわかっていますが、次の質問です。
2 - どの文字セット (コード ページ) に変換する必要がありますか? utf8_to_unicode
orutf8-to-utf16
のみという名前を使用している C++ ライブラリをいくつか見ましたがutf8_decode
、これが混乱の原因です。
このような回答が表示されるかどうかはわかりませんが、次のように言う人もいるかもしれません: 使用するコード ページに変換する必要がありますが、アプリケーションを国際化する必要がある場合はどうすればよいでしょうか?
3 - C++ で端末に非 ASCII 文字を表示しようとすると、紛らわしい単語が表示されるのではないかと思っていました。問題は、表示される文字がフォントである理由は何ですか?
出力 (Windows):
├Â</p>
4 - そのプロセスのどの部分にエンコーディングが入りますか? エンコードし、コードポイントを取得して、フォントで等しい単語を見つけようとしますか?
5 = WebKit は、Web ブラウザーで Web ページをレンダリングするためのエンジンです。文字セットを UTF-8 として指定すると、すべての文字でうまく動作しますが、別の文字セットを指定すると、フォントは関係ありません。 m を使用して、どうなりますか?
出力:
¶
以下を使用して動作します:
6 - ファイルを読み取ってエンコードし、すべてのコード ポイントを取得して、ファイルを再度保存する必要があるとします。エンコードして保存する必要がありますか (\u0000)、または最初にデコードして再度文字に変換してから保存する必要がありますか?
7 - なぜ「ユニコード」という言葉は少しオーバーロードされており、時々 utf-16 を意味すると理解されるのですか? (ソース)
それは今のところすべてです。前もって感謝します。
java - Javaで3バイトのUnicodeリテラルを書く方法は?
Java で Unicode リテラル U+10428 を書きたいと思います。 http://www.marathon-studios.com/unicode/U10428/Deseret_Small_Letter_Long_I
「\u10428」で試しましたが、コンパイルされません。
c++ - std::wstring は Windows で UTF-16 と UTF-32 をサポートしていますか?
私は Unicode について学んでいて、答えてもらいたいと思っている質問がいくつかあります。
1) Linux ではstd::wstringは 4 バイトですが、Windows では 2 バイトです。これは、Linux 内部サポートがUTF-32であるのに対し、Windows はUTF-16であることを意味しますか?
2) std::wstring の使用は std::string インターフェイスと非常に似ていますか?
3) VC++ は 4 バイトの std::wstring の使用をサポートしていますか?
4) std::wstring を使用する場合、コンパイラ オプションを変更する必要がありますか?
補足として、長さ、substr、検索、大文字/小文字の変換などの使い慣れた機能を提供する std::string と非常によく似たインターフェイスを持つ UTF-8 を操作するための文字列ライブラリに出会いました。ライブラリはGlibです。 ::ustring .
本当に必要なので、コメントや追加のアドバイスを自由に追加してください。
ありがとうございました!
vb.net - プレーンテキストファイルの=00形式のUTFコードをvb.netの正しいutf文字に変換します
大きなプレーンテキストファイルからすべての郵便住所を抽出する簡単なプログラムを作成すると、住所の一部に標準外の文字が使用されているという問題が発生します。
これは、処理する必要があるファイルのソース テキストです。
Rua Vale de Louro, N=BA 97 Bloco 2, 1=BA A
しかし、それは読む必要があります:
Rua Vale de Louro、Nº 97 Bloco 2、1º A
明らかに、この1文字を簡単に置き換えることができますが、すべての文字で動作させる必要があります.
BA は utf32 の º 記号の 16 進値です (ただし、その前にゼロの負荷があります)。したがって、文字列内のこれらすべての「=xx」インスタンスを見つけて、それらを解決する正しい utf 文字に置き換えるように何かをコーディングできればそれ。しかし、私の人生では、方法がわかりません。
誰でも助けてもらえますか?
ありがとう
java - Python でバイナリ ベースのファイルをエクスポートする
私は現在、Blender のエクスポート スクリプトに取り組んでいますが、私の質問は一般的に Python に基づいていると感じているので、ここに投稿しました。
友人が .obj ファイル用に Java で変換プログラムを作成しました。これにより、.obj ファイルはカスタム バイナリ ファイル形式に変換されます。ただし、そのプロセスをスキップして、バイナリ ファイルを Blender から直接エクスポートしたいと考えています。
このファイルには、utf-8、utf-16、および utf-32 形式を使用したテキスト、整数、浮動小数点数が含まれています。
これまでのところ、すべてのデータを標準のテキスト ファイルとしてエクスポートしているため、適切なエンコーディング/フォーマットで出力する必要があります。これは、さまざまなエンコーディングでファイルにデータを書き込むために Java で使用しているコードです。
これを行う方法がPythonであるかどうかはわかりません。少なくとも整数を正しく出力できるかどうかを確認しようとしていますが、うまくいきません。
使用例:
これも試しました:
このバイナリ/エンコーディング全体で少し迷っています。Pythonのドキュメントを読みましたが、役に立ちませんでした。
チュートリアルや例へのリンクは素晴らしいでしょう!
unicode - Unicode にはコード ポイントの最大数が定義されていますか?
Unicode コード ポイントの最大数を知るために多くの記事を読みましたが、最終的な答えは見つかりませんでした。
UTF-8 UTF-16 および UTF-32 エンコーディングのすべてが同じ数のコード ポイントを処理できるようにするために、Unicode コード ポイントが最小化されていることを理解しました。しかし、このコードポイントの数は何ですか?
私が遭遇した最も頻繁な答えは、Unicode コード ポイントが 0x000000 から 0x10FFFF (1,114,112 コード ポイント) の範囲にあるというものですが、他の場所で 1,112,114 コード ポイントであることも読みました。与えられる数字は 1 つですか、それとも問題はそれよりも複雑ですか?