問題タブ [utf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - UTFエンコーディングを理解するのに助けが必要
こんにちは、UTF-8 エンコーディング (BOM なし) を使用してテキスト ファイルを保存すると、C# で UTF-16 エンコーディングを使用して完全に読み取ることができることに気付きました。UTF-8 は 8 ビットしか使用しないため、これで少し混乱しました。そして、utf-16 は各文字に 16 ビットを使用します。
ここで、このファイルに文字列「ab」が UTF-8 として書き込まれていると想像してください。文字「a」用に 1 バイト、「b」用にもう 1 バイトあります。
わかりましたが、UTF-16 文字セットを使用しているときに、この UTF-8 ファイルを読み取るにはどうすればよいでしょうか? 私の見方では、ファイルの読み取り中に、「ab」の 2 バイトが、両方のバイトを含む 1 文字のみであると誤解されます。UTF-16 はこれらの 2 バイトを必要とするためです。
これは私がそれを読む方法です(t.txtはUTF-8としてエンコードされています):
macos - OSX Emacs:ちょうどいいaltをアンバインドしますか?
emacsformacosx.comを使用していますが、AppleキーボードのMeta_R(右メタまたは右オプションキー)がEmacsメタキーにならないようにしたいと思います。
その理由は、emacsで書き込むときにUTF-8文字を入力できるように、適切なオプションキーを文字修飾子として引き続き使用できるようにするためです。たとえば、 aC-x 8 RET
とtypeを実行できることはわかっていますが、それは!よりもはるかに多くの作業です。em dash
Alt_R -
キーコードをに渡す方法はありglobal-unset-key
ますか?または私が見落としている他の何か?
Meta_Lバインディングを引き続き使用できるようにしたいことは明らかです:)
extjs - Extjs4 の特殊文字?
Extjs4 で動作する ČĆŠĐŽ のような特殊文字を取得する方法。meta utf-8 を追加しようとしました...、!DOCTYPE html5 と XHTML 1.0 Transitional も試しました。sencha Web ページで推奨される index.html は次のとおりです。
java - JavaでバイトをUTF-8Yとして取得する方法
sax パーサーを使用して、utf-8y のエンコーディングを持つ xml ファイルを解析しています。saxパーサーまたは入力ソースでそれを指定するにはどうすればよいですか? 私はいつも解析例外を取得します
windows - MacとWindowsの両方でExcelでCSVファイルを正しく開くエンコーディングはどれですか?
BOMなしでUTF-8を使用して外国文字を含むCSVファイルをエクスポートするWebアプリがあります。WindowsとMacの両方のユーザーがExcelでガベージ文字を取得します。BOMを使用してUTF-8に変換してみました。Excel / Winはそれで問題ありません、Excel/Macはぎこちないことを示します。私はExcel2003/ Win、Excel 2011/Macを使用しています。これが私が試したすべてのエンコーディングです:
最適なのはBOMを備えたUTF-16LEですが、CSVはそのように認識されません。フィールド区切り文字はコンマですが、セミコロンは変更しません。
両方の世界で機能するエンコーディングはありますか?
c++ - C++11での文字列リテラルのUnicodeエンコーディング
関連する質問に続いて、C++11の新しい文字と文字列リテラル型について質問したいと思います。現在、4種類の文字と5種類の文字列リテラルがあるようです。文字の種類:
そして文字列リテラル:
問題はこれです://\x
文字参照はすべての文字列タイプと自由に組み合わせることができますか?すべての文字列型は固定幅ですか?つまり、配列にはリテラルに表示されるのとまったく同じ数の要素が含まれていますか、または//参照は可変バイト数に拡張されますか?文字列にはエンコードセマンティクスがありますか?たとえば、私は言うことができますか?非BMPコードポイントは2ユニットのUTF16シーケンスにエンコードされますか?そして同様に?(1)で、孤独な代理人を書くことはできますか?最後に、文字列関数のいずれかがエンコーディングを認識していますか(つまり、文字を認識し、無効なバイトシーケンスを検出できます)?\u
\U
\x
\u
\U
u""
u8""
char16_t x[] = u"\U0010FFFF"
u8
\u
これは少し自由形式の質問ですが、新しいC++11の新しいUTFエンコーディングとタイプ機能の全体像をできるだけ完全に把握したいと思います。
java - 中国語文字JavaのUTFエンコーディング
軸Webサービスからオブジェクトを介して文字列を受信しています。期待した文字列が得られないため、文字列をバイトに変換してチェックしました。実際にはUTF-で你好吗であるE4BDA0 E5A5BD E59097を期待しているときに、C3A4C2 BDC2A0 C3A5C2 A5C2BDC3A5C290C297をヘキサで取得します。 8.8。
你好吗がC3A4C2BDC2A0C3A5C2 A5C2BD C3A5C2 90C297になる原因は何ですか?私はグーグル検索をしました、しかし私が得たのはパイソンで起こる問題を説明している中国のウェブサイトだけでした。どんな洞察も素晴らしいでしょう、ありがとう!
unicode - 最高のUTFは何ですか
UnicodeのUTFについて本当に混乱しています。
UTF-8、UTF-16、UTF-32があります。
私の質問は:
すべてのUnicodeブロックをサポートしているUTFは何ですか?
最高のUTF(パフォーマンス、サイズなど)とは何ですか?その理由は何ですか?
これら3つのUTFの違いは何ですか?
エンディアンとバイト順マーク(BOM)とは何ですか?
ありがとう
php - mysqlまたはphpで「u00e9」をutf8文字に変換する方法は?
mysqlにインポートされているいくつかの乱雑なデータに対してデータクレンジングを行っています。
データには「疑似」ユニコード文字が含まれており、実際には「u00e9」などとして文字列に埋め込まれています。
'Jalostotitlu00e1n' という不器用な 'u00e1n' を取り除き、対応する utf 文字に置き換える必要があります。
おそらく部分文字列とCHRを使用して、どちらのmysqlでもこれを行うことができますが、PHPを介してデータを事前処理しているので、そこでも行うことができます。
mysql と php を構成して utf データを処理する方法については、すでにすべて知っています。問題は、インポートするソース データだけです。
ありがとう
oracle10g - Oracleでのutf-8からutf-16への変換
実際にリソースをUTF-8形式でDBに保存しました。しかし、今、それらすべてをUTF-16に変換したい場合。ドイツ語は1/4のようないくつかの文字を持っているので。今、私はそれらを避けたいです。ステートメントに従ってみましたが、結果文字列にいくつかのボックスがあります。
別のアプローチはありますか?
データベースの文字セットがWE8MSWIN1252であり、国別の文字セットがAL32UTF16であることを示します。
この関数を使用しDUMP
て、テーブルに実際に格納されているデータを表示すると、次のようになります。
Typ = 1 Len = 54 CharacterSet = WE8MSWIN1252:4d、c3、b6,63,68,74,65,6e、20,53,69,65,20,64,69,65,73,65,20,5a、 65,69,6c、65,20,77,69、72,6b、6c、69,63,68,20,65,6e、64,67、c3、bc、6c、74,69,67,20 、6c、c3、b6,73,63,68,65,6e、3f、MöchtenSiediese Zeile wirklichendgültiglöschen?