問題タブ [utf-16]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
9 に答える
333354 参照

unicode - Unicode、UTF-8、および UTF-16 とは何ですか?

Unicode の基礎は何ですか? UTF-8 または UTF-16 が必要な理由は何ですか? 私はこれをGoogleで調査し、ここでも検索しましたが、明確ではありません。

VSSでファイル比較を行うと、2 つのファイルの UTF が異なるというメッセージが表示されることがあります。なぜこれが当てはまるのでしょうか?

簡単な言葉で説明してください。

0 投票する
1 に答える
1458 参照

sql-server - BCPとUTF-16を使用して、SQLServer2005のnvarcharフィールドにロードするためのファイルをJavaで作成します。

BCPを使用して、ローダー制御ファイルを使用してnvarcharフィールドを含むSQLServer2005テーブルにロードしたいと思います。私が理解しているように、SQL Server 2005はUTF-16のみをサポートしています(UTF-16 LEだと思います)。ファイルはJavaプログラムによって出力されています。私が現在設定している方法は次のとおりです。

  1. XML形式のBCPローダーファイル(次のコマンドを使用して作成されます bcp test_table format nul -c -x -T -f test_table.xml -S server:)

  2. 次のコードを使用して出力を書き込むJavaプログラム:

    /li>
  3. 次に、次のbcpコマンドを使用します。
    bcp test_table in from_java.txt -T -f test_table.xml -S server -error error.txt

私がテーブルに入れるのはですÿþá。ではなくáááááLittle Endian, BOM

パラメータを変更するいくつかの異なる順列を試しました。

  • ローダー制御ファイルの生成方法を変更します(文字データの場合は-cではなくネイティブデータの場合は-nを使用します...これは何か関係があると思いますが、挿入されたデータに改善は見られませんでした)
  • ビッグエンディアンとBOMのないリトルエンディアンを含むUTF-16エンコーディングのいくつかの異なる形式を試しましたが、役に立ちませんでした
  • MicrosoftがBOM情報を利用したいということをどこかで読んだので、ファイルにBOMを手動で出力しようとしました。
  • ファイルを(UTF-16ではなく)UCS-2として出力しようとすることを検討しました。これは、(明らかに)BCPが実際にファイルを読み込んでいるものです。
  • bcpインポートで-wを試しましたが、これは機能しますが、ローダー形式のファイルと組み合わせることはできません(ファイルがUTF-16でエンコードされていることをBCPに伝える魔法を形式ファイルに組み込む方法はありますか?)
  • Windows-1252でファイルを出力し、ファイル-c 1252をロードするときにbcpのオプションとしてそのコードページを指定すると、動作させることができます(ただし、UTF-16のように情報が失われるため、これは実行したくありません。 1252と比較して表現できるもののスーパーセット)

ローダー形式の構成ファイルと組み合わせてUTF-16データを使用してbcpをnvarcharフィールドにロードすることに成功した人はいますか?

前もって感謝します、

-ジェームズ

0 投票する
4 に答える
1188 参照

python - Python UTF-16WAVYDASHエンコーディングの質問/問題

今日は仕事をしていましたが、何かが「おかしい」という問題に遭遇しました。私はいくつかの文字列データをutf-8として解釈し、エンコードされた形式をチェックしていました。データは、LDAP(具体的にはActive Directory)からpython-ldapを介して取得されていました。そこに驚きはありません。

そこで、バイトシーケンス'\ xe3 \ x80 \ xb0'に数回出くわしました。これは、utf-8としてデコードされると、ユニコードコードポイント3030(波状のダッシュ)になります。utf-16の文字列データが必要なので、当然、.encode('utf-16')を使用して変換しました。残念ながら、Pythonはこのキャラクターを好まないようです:

IronPythonもファンではないようです:

誰かがここで何が起こっているのかを正確に教えてくれるなら、それは大いにありがたいです。

0 投票する
2 に答える
1613 参照

c++ - UTF-8を変換する方法<->UTF16ポータブル

UTF-16をUTF-8に変換したり元に戻したりするためのシンプルでポータブルな方法(少なくともwin32、linux)はありますか?できればブーストを使用します。

あなたの助けのためのThx、トビアス

0 投票する
1 に答える
9611 参照

javascript - Javascript-文字列をUTF-16に変換します

私は初めてJavascriptを使用しており、sha-1ハッシュを使用しています。これを行うコードを見つけましたが、その依存関係の1つは、文字列をutf-8に変換するメソッドですが、比較しているサーバーはutf-16を使用しています。私は周りを見回しましたが、すべての結果がutf-8で表示され続けています。誰かが少なくとも私を正しい方向に向けることができますか?ありがとう。

0 投票する
5 に答える
782 参照

c# - ユーザーファイルをUnicodeに確実に自動デコードすることは可能ですか?[C#]

ユーザーがコンテンツをアップロードして処理できるようにするWebアプリケーションがあります。処理エンジンはUTF8を想定しているため(複数のユーザーのファイルからXMLを作成しています)、アップロードされたファイルを適切にデコードできることを確認する必要があります。

私のユーザーの誰かが自分のファイルエンコードされていることさえ知っていたら驚いたので、使用するエンコード(デコーダー)を正しく指定できることを期待することはほとんどありません。そのため、私のアプリケーションには、デコードする前に検出するタスクが残されています。

これはそのような普遍的な問題のように思えます。フレームワーク機能もソリューションの一般的なレシピも見つからないことに驚いています。意味のある検索用語で検索していないのでしょうか?

BOM対応の検出(http://en.wikipedia.org/wiki/Byte_order_mark)を実装しましたが、エンコードを示すためにBOMを使用してファイルがアップロードされる頻度がわかりません。これは、ほとんどの非UTFファイル。

私の質問は要約すると次のようになります。

  1. 大多数のファイルに対してBOM対応の検出で十分ですか?
  2. BOM検出が失敗した場合、別のデコーダーを試して、それらが「有効」であるかどうかを判断することは可能ですか?(私の試みは答えが「いいえ」であることを示しています。)
  3. 「有効な」ファイルがC#エンコーダー/デコーダーフレームワークで失敗するのはどのような状況ですか?
  4. テストに使用するさまざまなエンコーディングのファイルが多数あるリポジトリはどこにありますか?
  5. 特にC#/。NETについて質問していますが、次回これを行う必要がある場合に備えて、Java、Python、およびその他の言語の答えを知りたいと思います。

これまでのところ私は見つけました:

  • Ctrl-S文字を含む「有効な」UTF-16ファイルにより、UTF-8へのエンコードで例外(不正な文字?)がスロー されました(これはXMLエンコードの例外でした)。
  • 有効なUTF-16ファイルをUTF-8でデコードすると成功しますが、ヌル文字のテキストが返されます。は?
  • 現在、UTF-8、UTF-16、およびおそらくISO-8859-1ファイルのみを期待していますが、可能であればソリューションを拡張できるようにしたいと考えています。
  • 私の既存の入力ファイルのセットは、ライブファイルで発生するすべての問題を明らかにするのに十分な広さではありません。
  • 私がデコードしようとしているファイルは「テキスト」ですが、ファイルにガベージ文字を残すメソッドを使用して作成されることが多いと思います。したがって、「有効な」ファイルは「純粋」ではない可能性があります。ああ、喜び。

ありがとう。

0 投票する
2 に答える
1126 参照

java - Unicode 認識は utf-8 utf-16 か何かですか?

私はpostgreデータベースを使用しており、マラーティー語pimpriのユニコードでUTF-8をエンコードしています\u092A\u093F\u0902\u092A\u0930\u0940 \u0935\u093E\u0918\u0947\u0930\u0947

そして、クライアント側でコード String tempString=Strings.toEscapedUnicode(strQueryString[1]); を書きました。このようなユニコードを生成します

だから私はそれを一致させるのに問題があります。

どのフォーマットがどのように認識されるかという問題がありますか? u00E0\u00A4\u00AA\u00E0\u00A4\u00BF\u00E0\u00A4\u00AA\u00E0\u00A4\u0082\u00E0\u00A4\u00B0\u00E0\u00A5\u0080 は utf8 または utf16 または utf32 の場合

また、Javaを使用してutf8をutf16に変換する方法はありますか?

0 投票する
1 に答える
3242 参照

java - プロトコル「mapi://」を使用して、JavaからOutlookでメールを開きます。

Windowsデスクトップ検索を使用してJavaアプリケーションを開発します。この検索から、URL( System.ItemUrl )などのコンピューター上のファイルに関する情報を取得できます。そのようなURLの例は

「通常の」ファイルの場合。このフィールドには、OutlookまたはThunderbirdからインデックスに登録されたメールアイテムのURLも表示されます。Thunderbirdのアイテム(vistaと7を使用してのみ使用可能)もファイル(.wdseml)です。ただし、OutlookのアイテムのURLは「mapi://」で始まります。

私が抱えている問題は、このURLを使用してOutlookでJavaから実際のアイテムを開くことです。Windowsの実行ダイアログでコピーして貼り付けると動作します; コマンドラインで「start」の後にコピー/貼り付けされたURLを使用した場合にも機能します。

URLはUTF-16でエンコードされているようです。私はそのようなコードを書けるようになりたいです:

私は動作しません、そして私は次のような他の解決策を試しました:

成功せずに。上記の解決策を使用すると、ファイル「test.bat」には正しいURLと「start」コマンドが含まれますが、「test.bat」を実行すると、よく知られているエラーメッセージが表示されます。

Javaから「mapi://」アイテムを開くことができるというアイデアはありますか?

0 投票する
1 に答える
554 参照

php - PHP での Utf-16BE から ISO-8859-1 への変換

PHP で ISO-8859-1 の Utf-16BE を変換する必要があります (私はエンコーディングの専門家ではないので、Utf-16 と Utf-16BE が同じものかどうかはわかりません)。mb_convert_encoding 関数を使用する場所を読んだことがありますが、マルチバイト拡張機能がインストールされていないため、その関数はありません。これを行う別の方法を知っていますか?

0 投票する
5 に答える
18768 参照

c++ - C++ の std::wstring、UTF-16、UTF-8、および Windows GUI での文字列の表示について混乱しています

私は、「常に std::wstring を使用する」と言われている Windows 用の英語のみの C++ プログラムに取り組んでいますが、チームの誰もそれ以上のことを本当に理解していないようです。

「 std::wstring VS std::string 」というタイトルの質問をすでに読みました。非常に役に立ちましたが、そのすべての情報を問題に適用する方法がまだよくわかりません。

私が取り組んでいるプログラムは、Windows GUI にデータを表示します。そのデータは XML として永続化されます。レポーティングのために、XSLT を使用してその XML を HTML または XSL:FO に変換することがよくあります。

私が読んだ内容に基づく私の感覚は、HTML は UTF-8 としてエンコードする必要があるということです。私は GUI 開発についてほとんど知りませんが、少し読んだだけでは、GUI はすべて UTF-16 でエンコードされた文字列に基づいていることがわかります。

私はこれが私をどこに残すかを理解しようとしています。永続化されたデータはすべて UTF-8 でエンコードされた XML にする必要があると判断したとします。これは、永続化されたデータを UI コンポーネントに表示するには、何らかの明示的な UTF-8 から UTF-16 へのトランスコーディング プロセスを実際に実行する必要があるということですか?

私の説明は明確化を使用できると思われるので、質問があればそれを提供しようとします.