問題タブ [unicode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python 3.0 では、標準ライブラリのすべてが文字列を Unicode として扱いますか?
Python (3.0 以降) が Unicode ベースになった今、標準ライブラリがどのように動作するかについて少し混乱しています。CGI や urllib などのモジュールは Unicode 文字列を使用しますか、それとも新しい「bytes」タイプを使用してエンコードされたデータのみを提供しますか?
unicode - さまざまな言語の最小の Unicode エンコーディング?
さまざまな言語のさまざまな Unicode エンコーディングの典型的な 1 文字あたりの平均バイト数は?
たとえば、英語のテキストをエンコードするために最小のバイト数が必要な場合、平均して UTF-8 は 1 文字あたり 1 バイト、UTF-16 は 2 バイトになるため、UTF-8 を選択します。
韓国語のテキストが必要な場合、UTF-16 は 1 文字あたり平均約 2 ですが、UTF-8 は平均約 3 です (わかりません。ここでは例示的な数値を作成しているだけです)。
さまざまな言語や文字セットで最小のストレージ要件が得られるエンコーディングはどれですか?
java - 文字がJavaの文字かどうかを判断する方法は?
1 文字の文字列が文字であるかどうか (アクセント付きの文字を含む) を確認するにはどうすればよいですか?
最近これを解決しなければならなかったので、最近のVB6の質問で思い出したので、自分で答えます。
c# - Unicode文字を正しいフォントでレンダリングする方法は?(C#/ WinForms)
私のアプリケーションはさまざまな種類の文字セットを正しく処理しますが、内部的にのみ処理します。標準のWinFormsラベルとテキストボックスでテキストを表示する場合、漢字に問題があるようです。
問題は、使用されているフォント(Tahoma)にあるようです。テキストをコピーして貼り付けたり、デバッガーで表示したりすると、正しく表示されるためです。また、使用するフォントとしてMS明朝を設定すると、画面上の文字はOKに見えます。
もちろん、アプリケーション全体でMS明朝を使用したくはありません。表示される文字に応じてフォントを切り替える必要がありますか、それとも私が見逃したより良い方法はありますか?
asp.net - フォント ファイルに特定の Unicode グリフがあるかどうかをプログラムで判断する方法はありますか?
私は、かなり複雑な数学と科学の数式を含むことができる PDF を生成するプロジェクトに取り組んでいます。テキストは Times New Roman でレンダリングされており、Unicode を十分にカバーしていますが、完全ではありません。TNR にグリフを持たないコード ポイント (ほとんどの「見知らぬ」数学記号のように) を、より Unicode の完全なフォントに交換するシステムを用意していますが、クエリを実行する方法が見つからないようです。 *.ttf ファイルを調べて、特定のグリフが存在するかどうかを確認します。これまでのところ、存在するコード ポイントのルックアップ テーブルをハードコーディングしただけですが、自動ソリューションの方がはるかに望ましいと思います。
ASP.net の下の Web システムで VB.Net を使用していますが、任意のプログラミング言語/環境でのソリューションを歓迎します。
編集: win32 ソリューションは優れているように見えますが、解決しようとしている特定のケースは ASP.Net Web システムにあります。Windows API DLL を Web サイトに含めずにこれを行う方法はありますか?
unicode - 正式に Unicode をサポートする最初のバージョンの MS Office は何ですか?
私は、執筆中のホワイト ペーパーのために Unicode に関する調査を行っています。Unicode に完全に準拠した Windows プラットフォーム上の MS Office の最初のバージョンを覚えている人はいますか? この回答をネットからグーグルで検索すると、あまり運がありません。
python - unicode() がエンコーディングなしでのみオブジェクトに str() を使用するのはなぜですか?
ASCII ではない utf-8でエンコードされたデータを含む文字列変数を作成することから始めます。
その上で使用unicode()
するとエラーが発生します...
...しかし、エンコーディングがわかっている場合は、それを2番目のパラメーターとして使用できます:
__str__()
メソッドでこのテキストを返すクラスがあるとします。
unicode(r)
上記str()
と同じエラーが発生するため、使用しているようです。unicode(text)
これまでのところ、すべてが計画どおりです!
しかし、誰も予想していなかったように、unicode(r, 'utf-8')
試してさえいません:
なんで?この一貫性のない動作はなぜですか? バグですか?それは意図されていますか?非常に厄介です。
unicode - ヒキガエルのユニコード入力の問題
ヒキガエルでは、oracle db からの Unicode 文字を確認できます。しかし、データ グリッドのフィールドの 1 つをクリックして編集モードにすると、Unicode 文字が無意味な記号に変換されますが、これは大きな問題ではありません。
このフィールドを編集している間、入力すると Unicode 文字が正しく表示されます。しかし、Enter キーを押して編集モードを終了するとすぐに、最も近い (最も類似した) 非 Unicode 文字に変換されます。そのため、データ グリッドに Unicode 文字を入力できません。Unicode 文字の 1 つをコピーして貼り付けても機能しません。
どうすればこれを解決できますか?
編集:ヒキガエル 9.0.0.160 を使用しています。
php - PHPでUTF-8文字列を7ビットXMLに/から変換します
UTF-8 文字列 (つまり 8 ビット文字列) を XML 互換の 7 ビット文字列 (つまり、数値エンティティを含む印刷可能な ASCII) に/から変換するにはどうすればよいですか?
すなわち、次のencode()
ような関数:
decode()
も役立ちます:
PHP のhtmlenties()
/html_entity_decode()
ペアは正しいことをしません:
手間をかけて型を指定すると少しは役に立ちますが、それでも数値エンティティではなく、XML と互換性のない名前付きエンティティが返されます。
java - UTF-8 でエンコードされた後、特定のバイト数に収まるように Java 文字列を切り詰めるにはどうすればよいですか?
String
Javaが UTF-8 でエンコードされると、特定のバイト数のストレージに収まるようにJava を切り詰めるにはどうすればよいですか?