問題タブ [utf-16]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
17052 参照

c++ - 有効なロケール名

有効なロケール名を見つけるにはどうすればよいですか?

現在 MAC OS X を使用してい
ますが、他のプラットフォームに関する情報も役立ちます。

0 投票する
2 に答える
2024 参照

c++ - UTF-16 codecvt ファセット

ロケールに関するこの質問から拡張し、この質問
説明しました: 私が本当にやりたかったのは、UTF-16 ファイルを理解するロケールに codecvt ファセットをインストールすることでした。

自分で書くことができました。しかし、私は UTF の専門家ではないので、ほぼ正しいと確信しています。しかし、それは最も不便な時期に壊れます。それで、C++ から使用できるビルド前の codecvt (またはその他の) ファセットの (Web 上に) リソースがあり、ピア レビューおよびテストされているかどうか疑問に思っていました。

その理由は、ファイルを読み取るときにデフォルトのロケール (私のシステム MAC OS X 10.6) が変換なしで 1 バイトを 1 wchar_t に変換するためです。したがって、UTF-16 でエンコードされたファイルは、多くの null ('\0') 文字を含む wstring に変換されます。

0 投票する
3 に答える
2562 参照

unicode - UTF-16LE と UTF32-LE の Unicode BOM

UTF16-LE と UTF-32LE で使用されるバイト オーダー マークにはあいまいさがあるようです。特に、次の 8 バイトを含むファイルを考えてみましょう。

このファイルに次のものが含まれているかどうかを確認するにはどうすればよいですか。

  1. UTF16-LE BOM (FF FE) の後に 3 つのヌル文字が続きます。また
  2. UTF32-LE BOM (FF FE 00 00) の後に 1 つのヌル文字が続く?

Unicode BOM はhttp://unicode.org/faq/utf_bom.html#bom4で説明されていますが、このあいまいさについての議論はありません。何か不足していますか?

0 投票する
5 に答える
5202 参照

java - int から byte への Java の暗黙的な変換

バイトの読み取りと文字列の作成が必要な作業を開始しようとしています。読み取られるバイトは UTF-16 文字列を表します。そこで、テストするために、UTF-16 エンコーディングの単純なバイト配列を文字列に変換したいと考えました。配列の最初の 2 バイトはエンディアンを表す必要があるため、0xff 0xfe または 0xfe 0xff のいずれかでなければなりません。そこで、次のようにバイト配列を作成してみました。

しかし、0xFF と 0xFE が大きすぎて 1 バイトに収まらないため (バイトは Java で署名されているため)、エラーが発生しました。より正確には、エラーは int をバイトに変換できなかったことです。キャストを使用して int から byte に明示的に変換し、目的の結果を得ることができることはわかっていますが、それは私の質問ではありません。

何かを試すために、String を作成して getBytes("UTF-16") を呼び出し、配列内の各バイトを出力しました。最初の 2 バイトが 0xFFFFFFFE 0xFFFFFFFF であり、その後に 0x00 0x52 0x00 0x6F が続くため、出力は少し混乱しました。(明らかに、ここでのエンディアンは、上で作成しようとしていたものとは異なりますが、それは重要ではありません)。

この出力を使用して、同じ方法でバイト配列を作成してみることにしました。

そして奇妙なことに、それはうまくいきました。だから私の質問は、Java が明示的なキャストなしで 0xFFFFFF80 以上の整数値を自動的にバイトに変換できるのはなぜですか?

0 投票する
2 に答える
596 参照

iphone - 韓国語の書記素クラスター内で検索または比較する

私の現在の実装では、デリゲート メソッド内でUISearchBarController使用して、入力を開始したときに name プロパティに基づいて関連するオブジェクトを結果に返します。[NSString compare:]filterContentForSearchText:scope:UITableView

これまでのところ、これは英語と韓国語でうまく機能しますが、私ができるようにしたいのは、NSStringの定義された文字クラスター内での検索です。これは、韓国語を含む一握りの言語にのみ適用されます。

英語でcompare:は、文字を入力するたびに新しい結果が返されますが、韓国語では、認識された書記素クラスターを完了すると結果が生成されます。音節を構成する個々の要素を介して、韓国語のオブジェクト名プロパティを検索できるようにしたいと考えています。

これにアプローチする方法について誰かが光を当てることができますか? UTF16文字を手動で検索するか、下位レベルのクラスを利用することと関係があると確信しています。

乾杯!

うまくいかない具体的な例を次に示します。

の有無にかかわらず、結果は常に NSNotFounddecomposedStringWithCanonicalMappingです。

何か案は?

0 投票する
2 に答える
973 参照

java - JavaでZIPアーカイブからUTF-16でエンコードされたファイルを抽出する

コードの最後のセクションでは、Reader が提供するものを出力します。しかし、それは単なる偽物です。どこで間違ったのでしょうか。

0 投票する
3 に答える
2538 参照

php - XML から UTF-16 (または UTF-8) 値を読み取り、PHP で結果を表示する

ユニコード (UTF-16) の値と PHP/XML で多くの問題を抱えています。XML から一連の Unicode 値を読み取り、正しいグリフをブラウザーに出力したいと考えています。UTF-8 で試してみましたが、同じ問題が発生します。

これは、最初のテストで使用した簡単な作業例です。

上記のコードの出力:

ただし、XML から値を取得しようとすると、動作が停止します。

XML:

PHP では、上記の xml から各値を読み取り、\x00\x41 などのペアと形式に分割します。

PHP:

ブラウザでの出力:

疑問符は、A、B、C、D、E、F である必要があります。

私は何を間違っていますか?

ありがとう。

0 投票する
1 に答える
1660 参照

c++ - utf-8とutf-16の問題

私はこれらの2つの変換関数と答えをStackOverflowに基づいていますが、前後の変換は機能しません。

0 投票する
2 に答える
713 参照

java - Java ファイル解析ツールキットの設計、迅速なファイル エンコーディングのサニティ チェック

(免責事項: 質問する前に、ここでいくつかの投稿を調べました。これは特に役に立ちました。可能であれば、皆さんからのちょっとした健全性チェックを探していました)

こんにちは、みんな、

データベースにロードするデータファイルを処理するために構築した内部 Java 製品 (別名 ETL ツール) があります。XSLT 変換用の事前ロールされたステージがあり、元のファイル内でパターンの置換などを行います。入力ファイルは任意の形式にすることができ、フラット データ ファイルまたは XML データ ファイルにすることができます。ロードされる特定のデータ フィードに必要なステージを構成します。

私はこれまで、ファイルのエンコーディングの問題を無視してきました (私が知っている間違いです)。ただし、ファイル エンコーディングの問題に直面しています。簡単に言うと、ステージを一緒に構成する方法の性質上、入力ファイルのファイル エンコーディングを検出し、Java Reader オブジェクトを作成する必要があります。適切な引数。完全に理解しているとは言えないことに飛び込む前に、皆さんと簡単な健全性チェックを行いたかっただけです。

  1. ツールキット内のすべてのステージから出力されるすべてのファイルに、UTF-16 の標準ファイル エンコーディングを採用します (将来的に 2 バイト文字を読み込む可能性を除外するつもりはありません)。
  2. JUniversalChardetまたはjchardetを使用して、入力ファイルのエンコーディングをスニッフィングします
  3. Apache Commons IO ライブラリを使用して、すべての段階で標準のリーダーとライターを作成します (これには同様のエンコーディング スニッフィング API がないと考えてよろしいですか?)

私の概説したアプローチで何か落とし穴が見えますか、または提供できる特別な知恵はありますか?

Java ランタイムに windows-1252 のエンコーディングを決定させるという既存のアプローチを使用してロードされたデータとの下位互換性を確信できる方法はありますか?

前もって感謝します、

-ジェームズ

0 投票する
2 に答える
2792 参照

xml - 「ã」や「ê」などの文字をUTF-8でエンコードされたXMLに含めることはできますか、それともUTF-16でエンコードする必要がありますか?

「ã」や「ê」などの文字をUTF-8でエンコードされたXMLに含めることはできますか、それともUTF-16でエンコードする必要がありますか?