問題タブ [character-encoding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - .getBytes() を呼び出すと、文字列 "¿" が "¿" に変換されるのはなぜですか?
を使用して文字列「¿」を書き出す場合
¿ だけではなく ¿ と書かれています。
なぜ?そして、どうすれば修正できますか?
java - UTF-8 を使用している場合でも、Windows と Linux で ¿ の表示が異なるのはなぜですか?
Linux と Windows で次の表示が異なるのはなぜですか?
Windows の場合:
¿
Linux の場合:
¿
html - MS Officeハイパーリンクはコードページを変更しますか?
次のURLをIEに貼り付ける場合:http ://technet.microsoft.com/en-us/sysinternals/bb897434.aspx、ページの右側のリンクには、「Zoomitをダウンロード(77KB)」と書かれています。リンクをOfficeドキュメント(Word、Excel、PowerPoint-Office 2003を使用してテスト済み)に貼り付け、ドキュメントからリンクをアクティブ化すると、同じテキストが2つのA-サーカムフレックス記号を取得します。これは、ソースHTMLに「 」が含まれているためです。Unicode 00A0に変換されるエンティティ(ノーブレークスペース)。UTF-8では、これはX'C2A0'として表され、X'C2'はAサーカムフレックスとして表示されます。コードページがこのように混同される方法を完全には理解していませんが、nbsp-entityを含むページがリンクされている場合でも正しく表示されるHTMLメタhttp-equiv文字セット値を見つけたいと思います。 Officeドキュメント。
delphi - Delphi 2009 で文字が 1 バイトまたは 2 バイトを使用しているかどうかを確認する方法はありますか?
Delphi 2009 では、文字列型が 2 バイトを使用して文字を表すように変更されました。これにより、Unicode 文字セットがサポートされるようになりました。sizeof(string) を取得すると、 length(String) * sizeof(char) が取得されます。Sizeof(char) は現在 2 です。
私が興味を持っているのは、文字ごとに1バイトに収まるかどうかを確認できる方法を誰かが知っているかどうかです。たとえば、文字がasciiかUnicodeかを確認します。
私が主に知りたいのは、文字列がデータベース (oracle、Documentum) に送られる前に、文字列が何バイト使用するかということです。
データベースを変更せずに、事前に、そして理想的には (大規模なインストール ベースがあるため) 制限を適用できる必要があります。文字列フィールドが 12 バイトを許可する場合、Delphi 2009 では、長さ 7 の文字列は常に 14 バイトを使用していると表示されますが、データベースに到達すると、ascii の場合は 7、2 バイトの場合は 14、または混合。
encoding - 従来の ASP で POST に XMLHttp オブジェクトを使用して文字セットを設定するにはどうすればよいですか?
サーバーからサーバーへ HTTP 経由でデータを別のサーバーに送信するには、従来のASP で XMLHttp オブジェクトを使用する必要があります。
Windows Server 2000 (IIS 5) または Windows Server 2003 (IIS 6) からこのコードを使用するかどうかに応じて、Latin-1 (Windows 2000 Server)を取得することを (消費サーバーの保守担当者から) 言われました。またはUTF-8 (Windows Server 2003) でエンコードされたデータ。
送信するデータの文字セットを設定するプロパティまたはメソッドが見つかりませんでした。一部の Windows 構成またはスクリプト (asp) 設定に依存しますか?
mysql - latin1_swedish_ci照合を使用してMySQLデータベースをutf-8に移行する必要がありますか?移行する場合は、どのように移行しますか?
Railsアプリケーションで使用されるMySQLデータベースには、現在、デフォルトの照合がありlatin1_swedish_ci
ます。utf8_general_ci
Railsアプリケーション(私のものを含む)のデフォルトの文字セットはUTF-8であるため、データベースで照合を使用するのが賢明なようです。
私の考えは正しいですか?
そうだとすると、照合とデータベース内のすべてのデータを新しいエンコーディングに移行するための最良のアプローチは何でしょうか?
perl - 不正な UTF 文字を検出する方法
SQL*Loader を使用してデータをロードする際に、Perl スクリプトを使用して不正な UTF-8 文字を検出し、空白に置き換えたいと考えています。これどうやってするの?
url - URL 書き換え - 国際文字
特殊文字/国際文字を含む URL をどのようにフォーマットすればよいですか?
現在、私はURLを「見栄えのする」ようにしようとしています。
に変換されます:
一部の国際文字 (ü = ue、æ = ae、å = aa) は変換でき、一部の文字は削除できることを知っています。私は通常、URL を「見栄えの良い」ものにしようとしますが、それはばかげていますか?
しかし、西洋の ASCII 形式とは関係のない中国語、日本語、アラビア語の文字はどうすればよいでしょうか?
URL を 16 進コードで書き換えるという考えは本当に好きではないので、今のところ、URL に「変換できない」文字が多すぎる場合は、内部の一意の ID を使用するだけです。
character-encoding - 「lew2」または「lew4」の「lew」は何を表していますか?
特定のファイルの文字サイズに関して、「lew2」および「lew4」という用語が使用されています。この数値は、特定の種類の文字 (おそらくワイド文字?) を格納するために使用されるバイト数を表していることは知っていますが、「lew」部分が何を表しているのかわかりません。私の最良の推測は「幅の長さ」です。誰でも私を啓発できますか?
python - 文字列に非ASCII文字がある場合、C文字列(char配列)をPython文字列に変換する方法は?
C プログラムに Python インタープリターを組み込みました。C プログラムがファイルから char 配列にいくつかのバイトを読み取り、そのバイトが特定のエンコーディング (ISO 8859-1、Windows-1252、または UTF-8 など) でテキストを表していることを (何らかの方法で) 学習したとします。この char 配列の内容を Python 文字列にデコードするにはどうすればよいですか?
Python 文字列は一般に、型である必要がありunicode
ます。たとえば、0x93
Windows-1252 でエンコードされた入力では a は になりu'\u0201c'
ます。
を使用しようとしPyString_Decode
ましたが、文字列に非 ASCII 文字が含まれていると常に失敗します。失敗する例を次に示します。
エラー メッセージは です。これは、 の呼び出しで指定したにもかかわらずUnicodeEncodeError: 'ascii' codec can't encode character u'\u201c' in position 0: ordinal not in range(128)
、エンコーディングが使用されていることを示しています。ascii
windows_1252
PyString_Decode
次のコードは、 を使用してデコードされPyString_FromString
ていないバイトの Python 文字列を作成し、そのdecode
メソッドを呼び出すことで問題を回避します。