“utf-32”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

849 参照

java - java: UTF-32 から UTF-16 へのコンバーター

Javaエスケープコードを取得しようとしています。
例：1F612==>\ud83d\ude12

私は試した：

formatUTF 関数:

しかし、出力：

注: 1F61216 進数 =128530整数

助けてください。

user3375707

2014-05-27T20:30:03.787

0 投票する

1 に答える

851 参照

c++ - Unicode、UTF-8、UTF-16、および UTF-32 に関する質問

Unicode、ASCII、コードページ、すべての歴史、UTF-8、UTF-16 (UCS-2)、UTF-32 (UCS-4) の発明、およびそれらの使用者などについてよく読んでいますが、まだいくつかの質問があり、答えを見つけるのに苦労しましたが、できませんでした。助けていただければ幸いです。

1 - Unicode は文字をエンコードするための標準であり、各文字のコードポイントを指定します。U+0000 のようなもの (例)。これらのコードポイント (\u0000) を含むファイルがあると想像してください。アプリケーションのどのポイントでそれを使用するのでしょうか?

これはばかげた質問かもしれませんが、アプリケーションのどの時点でそれを使用するのか本当にわかりません。エスケープを使用してこれらのコードポイントを持つファイルを読み取ることができるアプリケーションを作成しています\u。それを読み取ってデコードできることはわかっていますが、次の質問です。

2 - どの文字セット (コードページ) に変換する必要がありますか? utf8_to_unicodeorutf8-to-utf16のみという名前を使用している C++ ライブラリをいくつか見ましたがutf8_decode、これが混乱の原因です。

このような回答が表示されるかどうかはわかりませんが、次のように言う人もいるかもしれません: 使用するコードページに変換する必要がありますが、アプリケーションを国際化する必要がある場合はどうすればよいでしょうか?

3 - C++ で端末に非 ASCII 文字を表示しようとすると、紛らわしい単語が表示されるのではないかと思っていました。問題は、表示される文字がフォントである理由は何ですか?

出力 (Windows):

├Â</p>

4 - そのプロセスのどの部分にエンコーディングが入りますか? エンコードし、コードポイントを取得して、フォントで等しい単語を見つけようとしますか?

5 = WebKit は、Web ブラウザーで Web ページをレンダリングするためのエンジンです。文字セットを UTF-8 として指定すると、すべての文字でうまく動作しますが、別の文字セットを指定すると、フォントは関係ありません。 m を使用して、どうなりますか?

出力：

¶

以下を使用して動作します:

6 - ファイルを読み取ってエンコードし、すべてのコードポイントを取得して、ファイルを再度保存する必要があるとします。エンコードして保存する必要がありますか (\u0000)、または最初にデコードして再度文字に変換してから保存する必要がありますか?

7 - なぜ「ユニコード」という言葉は少しオーバーロードされており、時々 utf-16 を意味すると理解されるのですか? （ソース）

それは今のところすべてです。前もって感謝します。

c++unicode utf-8 utf-16 utf-32

2014-06-30T18:18:21.137

0 投票する

1 に答える

3526 参照

java - Javaで3バイトのUnicodeリテラルを書く方法は?

Java で Unicode リテラル U+10428 を書きたいと思います。 http://www.marathon-studios.com/unicode/U10428/Deseret_Small_Letter_Long_I

「\u10428」で試しましたが、コンパイルされません。

java unicode utf-16 utf-32 unicode-literals

2014-07-08T13:35:42.740

0 投票する

2 に答える

5790 参照

c++ - std::wstring は Windows で UTF-16 と UTF-32 をサポートしていますか?

私は Unicode について学んでいて、答えてもらいたいと思っている質問がいくつかあります。

1) Linux ではstd::wstringは 4 バイトですが、Windows では 2 バイトです。これは、Linux 内部サポートがUTF-32であるのに対し、Windows はUTF-16であることを意味しますか?

2) std::wstring の使用は std::string インターフェイスと非常に似ていますか?

3) VC++ は 4 バイトの std::wstring の使用をサポートしていますか?

4) std::wstring を使用する場合、コンパイラオプションを変更する必要がありますか?

補足として、長さ、substr、検索、大文字/小文字の変換などの使い慣れた機能を提供する std::string と非常によく似たインターフェイスを持つ UTF-8 を操作するための文字列ライブラリに出会いました。ライブラリはGlibです。 ::ustring .

本当に必要なので、コメントや追加のアドバイスを自由に追加してください。

ありがとうございました！

c++unicode utf-8 utf-16 utf-32

2014-09-19T16:23:01.577

0 投票する

2 に答える

140 参照

vb.net - プレーンテキストファイルの=00形式のUTFコードをvb.netの正しいutf文字に変換します

大きなプレーンテキストファイルからすべての郵便住所を抽出する簡単なプログラムを作成すると、住所の一部に標準外の文字が使用されているという問題が発生します。

これは、処理する必要があるファイルのソーステキストです。

Rua Vale de Louro, N=BA 97 Bloco 2, 1=BA A

しかし、それは読む必要があります:

Rua Vale de Louro、Nº 97 Bloco 2、1º A

明らかに、この1文字を簡単に置き換えることができますが、すべての文字で動作させる必要があります.

BA は utf32 の º 記号の 16 進値です (ただし、その前にゼロの負荷があります)。したがって、文字列内のこれらすべての「=xx」インスタンスを見つけて、それらを解決する正しい utf 文字に置き換えるように何かをコーディングできればそれ。しかし、私の人生では、方法がわかりません。

誰でも助けてもらえますか?

ありがとう

vb.net encoding hex character utf-32

2014-09-21T14:14:19.257

0 投票する

1 に答える

488 参照

java - Python でバイナリベースのファイルをエクスポートする

私は現在、Blender のエクスポートスクリプトに取り組んでいますが、私の質問は一般的に Python に基づいていると感じているので、ここに投稿しました。

友人が .obj ファイル用に Java で変換プログラムを作成しました。これにより、.obj ファイルはカスタムバイナリファイル形式に変換されます。ただし、そのプロセスをスキップして、バイナリファイルを Blender から直接エクスポートしたいと考えています。

このファイルには、utf-8、utf-16、および utf-32 形式を使用したテキスト、整数、浮動小数点数が含まれています。

これまでのところ、すべてのデータを標準のテキストファイルとしてエクスポートしているため、適切なエンコーディング/フォーマットで出力する必要があります。これは、さまざまなエンコーディングでファイルにデータを書き込むために Java で使用しているコードです。

これを行う方法がPythonであるかどうかはわかりません。少なくとも整数を正しく出力できるかどうかを確認しようとしていますが、うまくいきません。

使用例:

これも試しました：

このバイナリ/エンコーディング全体で少し迷っています。Pythonのドキュメントを読みましたが、役に立ちませんでした。

チュートリアルや例へのリンクは素晴らしいでしょう!

java python binary utf-16 utf-32

2014-10-08T04:17:19.497

0 投票する

3 に答える

16142 参照

unicode - Unicode にはコードポイントの最大数が定義されていますか?

Unicode コードポイントの最大数を知るために多くの記事を読みましたが、最終的な答えは見つかりませんでした。

UTF-8 UTF-16 および UTF-32 エンコーディングのすべてが同じ数のコードポイントを処理できるようにするために、Unicode コードポイントが最小化されていることを理解しました。しかし、このコードポイントの数は何ですか?

私が遭遇した最も頻繁な答えは、Unicode コードポイントが 0x000000 から 0x10FFFF (1,114,112 コードポイント) の範囲にあるというものですが、他の場所で 1,112,114 コードポイントであることも読みました。与えられる数字は 1 つですか、それとも問題はそれよりも複雑ですか?

unicode utf-8 utf-16 codepoint utf-32

user4344762

2014-12-11T05:26:34.600

問題タブ [utf-32]

Reference