“utf”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

713 参照

c# - UTFエンコーディングを理解するのに助けが必要

こんにちは、UTF-8 エンコーディング (BOM なし) を使用してテキストファイルを保存すると、C# で UTF-16 エンコーディングを使用して完全に読み取ることができることに気付きました。UTF-8 は 8 ビットしか使用しないため、これで少し混乱しました。そして、utf-16 は各文字に 16 ビットを使用します。

ここで、このファイルに文字列「ab」が UTF-8 として書き込まれていると想像してください。文字「a」用に 1 バイト、「b」用にもう 1 バイトあります。

わかりましたが、UTF-16 文字セットを使用しているときに、この UTF-8 ファイルを読み取るにはどうすればよいでしょうか? 私の見方では、ファイルの読み取り中に、「ab」の 2 バイトが、両方のバイトを含む 1 文字のみであると誤解されます。UTF-16 はこれらの 2 バイトを必要とするためです。

これは私がそれを読む方法です（t.txtはUTF-8としてエンコードされています）：

c#encoding utf-8 utf-16 utf

2011-06-11T04:14:40.587

0 投票する

4 に答える

7112 参照

macos - OSX Emacs：ちょうどいいaltをアンバインドしますか？

emacsformacosx.comを使用していますが、AppleキーボードのMeta_R（右メタまたは右オプションキー）がEmacsメタキーにならないようにしたいと思います。

その理由は、emacsで書き込むときにUTF-8文字を入力できるように、適切なオプションキーを文字修飾子として引き続き使用できるようにするためです。たとえば、 aC-x 8 RETとtypeを実行できることはわかっていますが、それは！よりもはるかに多くの作業です。em dashAlt_R -

キーコードをに渡す方法はありglobal-unset-keyますか？または私が見落としている他の何か？

Meta_Lバインディングを引き続き使用できるようにしたいことは明らかです:)

macos emacs dot-emacs utf

2011-06-14T13:38:24.077

0 投票する

1 に答える

3926 参照

extjs - Extjs4 の特殊文字?

Extjs4 で動作する ČĆŠĐŽ のような特殊文字を取得する方法。meta utf-8 を追加しようとしました...、!DOCTYPE html5 と XHTML 1.0 Transitional も試しました。sencha Web ページで推奨される index.html は次のとおりです。

extjs indexing special-characters extjs4 utf

2011-06-28T09:40:32.073

0 投票する

2 に答える

551 参照

java - JavaでバイトをUTF-8Yとして取得する方法

sax パーサーを使用して、utf-8y のエンコーディングを持つ xml ファイルを解析しています。saxパーサーまたは入力ソースでそれを指定するにはどうすればよいですか? 私はいつも解析例外を取得します

java xml sax utf

2011-06-29T20:50:00.473

0 投票する

15 に答える

158591 参照

windows - MacとWindowsの両方でExcelでCSVファイルを正しく開くエンコーディングはどれですか？

BOMなしでUTF-8を使用して外国文字を含むCSVファイルをエクスポートするWebアプリがあります。WindowsとMacの両方のユーザーがExcelでガベージ文字を取得します。BOMを使用してUTF-8に変換してみました。Excel / Winはそれで問題ありません、Excel/Macはぎこちないことを示します。私はExcel2003/ Win、Excel 2011/Macを使用しています。これが私が試したすべてのエンコーディングです：

最適なのはBOMを備えたUTF-16LEですが、CSVはそのように認識されません。フィールド区切り文字はコンマですが、セミコロンは変更しません。

両方の世界で機能するエンコーディングはありますか？

windows excel macos csv utf

2011-07-05T19:50:17.407

0 投票する

1 に答える

57101 参照

c++ - C++11での文字列リテラルのUnicodeエンコーディング

関連する質問に続いて、C++11の新しい文字と文字列リテラル型について質問したいと思います。現在、4種類の文字と5種類の文字列リテラルがあるようです。文字の種類：

そして文字列リテラル：

問題はこれです：//\x文字参照はすべての文字列タイプと自由に組み合わせることができますか？すべての文字列型は固定幅ですか？つまり、配列にはリテラルに表示されるのとまったく同じ数の要素が含まれていますか、または//参照は可変バイト数に拡張されますか？文字列にはエンコードセマンティクスがありますか？たとえば、私は言うことができますか？非BMPコードポイントは2ユニットのUTF16シーケンスにエンコードされますか？そして同様に？（1）で、孤独な代理人を書くことはできますか？最後に、文字列関数のいずれかがエンコーディングを認識していますか（つまり、文字を認識し、無効なバイトシーケンスを検出できます）？\u\U\x\u\Uu""u8""char16_t x[] = u"\U0010FFFF"u8\u

これは少し自由形式の質問ですが、新しいC++11の新しいUTFエンコーディングとタイプ機能の全体像をできるだけ完全に把握したいと思います。

c++unicode c++11 utf string-literals

2011-07-22T21:07:49.530

0 投票する

2 に答える

22363 参照

java - 中国語文字JavaのUTFエンコーディング

軸Webサービスからオブジェクトを介して文字列を受信しています。期待した文字列が得られないため、文字列をバイトに変換してチェックしました。実際にはUTF-で你好吗であるE4BDA0 E5A5BD E59097を期待しているときに、C3A4C2 BDC2A0 C3A5C2 A5C2BDC3A5C290C297をヘキサで取得します。 8.8。

你好吗がC3A4C2BDC2A0C3A5C2 A5C2BD C3A5C2 90C297になる原因は何ですか？私はグーグル検索をしました、しかし私が得たのはパイソンで起こる問題を説明している中国のウェブサイトだけでした。どんな洞察も素晴らしいでしょう、ありがとう！

java encoding utf

2011-07-27T01:20:59.443

0 投票する

6 に答える

2190 参照

unicode - 最高のUTFは何ですか

UnicodeのUTFについて本当に混乱しています。

UTF-8、UTF-16、UTF-32があります。

私の質問は：

すべてのUnicodeブロックをサポートしているUTFは何ですか？
最高のUTF（パフォーマンス、サイズなど）とは何ですか？その理由は何ですか？
これら3つのUTFの違いは何ですか？
エンディアンとバイト順マーク（BOM）とは何ですか？

ありがとう

unicode utf-8 utf

2011-07-30T09:33:49.747

0 投票する

3 に答える

66780 参照

php - mysqlまたはphpで「u00e9」をutf8文字に変換する方法は?

mysqlにインポートされているいくつかの乱雑なデータに対してデータクレンジングを行っています。

データには「疑似」ユニコード文字が含まれており、実際には「u00e9」などとして文字列に埋め込まれています。

'Jalostotitlu00e1n' という不器用な 'u00e1n' を取り除き、対応する utf 文字に置き換える必要があります。

おそらく部分文字列とCHRを使用して、どちらのmysqlでもこれを行うことができますが、PHPを介してデータを事前処理しているので、そこでも行うことができます。

mysql と php を構成して utf データを処理する方法については、すでにすべて知っています。問題は、インポートするソースデータだけです。

ありがとう

php mysql unicode character-encoding utf

2011-08-15T03:02:41.013

0 投票する

1 に答える

10489 参照

oracle10g - Oracleでのutf-8からutf-16への変換

実際にリソースをUTF-8形式でDBに保存しました。しかし、今、それらすべてをUTF-16に変換したい場合。ドイツ語は1/4のようないくつかの文字を持っているので。今、私はそれらを避けたいです。ステートメントに従ってみましたが、結果文字列にいくつかのボックスがあります。

別のアプローチはありますか？

データベースの文字セットがWE8MSWIN1252であり、国別の文字セットがAL32UTF16であることを示します。

この関数を使用しDUMPて、テーブルに実際に格納されているデータを表示すると、次のようになります。

Typ = 1 Len = 54 CharacterSet = WE8MSWIN1252：4d、c3、b6,63,68,74,65,6e、20,53,69,65,20,64,69,65,73,65,20,5a、 65,69,6c、65,20,77,69‌、72,6b、6c、69,63,68,20,65,6e、64,67、c3、bc、6c、74,69,67,20 、6c、c3、b6,73,63,68,65,6e、3f、MÃ¶chtenSiediese Zeile wirklichendgÃ¼ltiglÃ¶schen？

oracle10g utf

2011-08-17T13:59:42.837

問題タブ [utf]

Reference