問題タブ [windows-1252]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1714 参照

macos - Windows-1252エンコーディングをCのUTF8にマッピングする

Windows-1252(別名CP1252)をエンコードしたC文字列をUTF8にプログラムで変換するにはどうすればよいですか?

0 投票する
2 に答える
426 参照

encoding - Windows-1252 コード ページでマルチバイト文字を使用することは可能ですか?

一部のロケール (極東ロケールなど) にはマルチバイト文字セットがあり、文字を表すのに複数のバイトが必要であることは知っています。

私の (ANSI) ソフトウェアがマルチバイト文字を処理できるかどうかをテストしたいと思います。

私が Windows コードページが に設定されている北米に住んでいることを除いてWindows-1252

ローカルの Windows-1252 ロケールでマルチバイト文字を作成することはできますか?

0 投票する
1 に答える
443 参照

javascript - 特殊文字を Javascript から Java に変換する

ユーザーから可能なすべての文字を受け入れるフォームにテキスト領域があります。テキストエリアに入力する文字数を 10 に制限します。ユーザーが「SampleTxt」などの特殊文字を含むテキストを入力すると、テキストエリアの文字数は10になります。しかし、フォームのテキストエリアの値を取得すると、テキストは「SampleTxt」になります

テキストの数は 21 になります。この問題をどのように克服しますか?

JSP

0 投票する
1 に答える
14093 参照

encoding - エンコーディングを UTF-8 から Windows-1252 に変換するにはどうすればよいですか?

テキスト ファイルを UTF-8 から Windows-1252 に正しく変換するにはどうすればよいですか?

iconv (windows xp) を使用してファイルを変換しようとしましたが、この util はテキスト ファイルを ANSI に変換しました。Windows のデフォルト コード ページは Windows-1251 であるため、一部の文字を正しく表示できません。

0 投票する
4 に答える
1658 参照

perl - Perlのutf8モードで開かれたASCIIテキストファイルからMicrosoft 1252文字をフィルタリングする

Web フォーム (Perl スクリプトを使用) を介して収集された、大部分が 8859 形式で保存された、妥当なサイズのテキスト ドキュメントのフラット ファイル データベースがあります。最近まで、私は一般的な 1252 文字 (中引用符、アポストロフィなど) を正規表現の単純なセットで交渉していました。

...など

しかし、私は Unicode に移行するべきだと判断し、すべてのスクリプトを utf8 で読み込んで出力するように変換しました (これはすべての新しい素材を処理します)。これらの (既存の) 1252 文字の正規表現は機能しなくなり、私の Perl html output は文字通り 4 文字を出力します: '\x92' と '\x93' など (少なくとも、utf8 モードのブラウザで表示され、ダウンロード (http ではなく ftp) してテキスト エディタ (テキストパッド) で開くと、それは異なります。 1 つの未定義の文字が残り、出力ファイルを Firefox のデフォルト (コンテンツ タイプ ヘッダーなし) 8859 モードで開くと、正しい文字がレンダリングされます)。

スクリプトの開始時の新しい utf8 プラグマは次のとおりです。

CGI qw(-utf8) を使用します。open IO を使用 => ':utf8';

これは utf8 モードが文字を 1 バイトではなく 2 バイトにするためであり、0x80 から 0xff の範囲の文字に適用されることを理解しています。それらをフィルタリングします。理想的には、すべてのドキュメントを utf8 モードで再保存する必要があることはわかっています (フラット ファイル データベースには現在 8859 と utf8 が混在しているため)。 .

また、内部の 2 バイトのストレージについては間違っている可能性があります。これは、さまざまな状況に応じて Perl が非常に異なる処理を行うことを暗示しているように思われるからです。

誰かが私に正規表現の解決策を提供できれば、私はとても感謝しています。または他の方法。私はこれについて何週間もの間、さまざまな試みとハッキングの失敗で髪を引き裂いてきました. 一般的に置換が必要な 1252 文字が約 6 個あります。フィルター メソッドを使用すると、フリッピン ロット全体を utf8 で再保存し、1252 文字があったことを忘れることができます。

0 投票する
3 に答える
7764 参照

php - php の mb_detect_encoding()

まず、PHP の mb_detect_order() の奇妙な動作 で、php の mb_detect_encoding に関する他の投稿を読みました 。これは、試行錯誤を通じて私が学んだことを確実に再確認します。しかし、私を混乱させることがまだいくつかあります。

データを収集してUTF-8 XMLに保存する、主に英語のサイトのhtmlスクレーパーを構築しています。ページ自体が ISO-8859-1 文字セットを宣言しているにもかかわらず、Windows-1252 に固有の文字が含まれているという問題に遭遇しました。具体的には、右の一重引用符 (') 0x92 です。私が理解しているように、windows-1252 は iso-8859-1 のスーパーセットです。utf8_encode() の代わりに iconv('Windows-1252', 'UTF-8', $str) を使用しない理由例: €‚ƒ' ' " ")

また

なぜこれが起こるのですか?文字列の最初の文字が windows-1252 でない場合、残りは Windows-1252 であっても失敗しますか? この動作はかなり役に立ちませんか? iso-8859-1 と windows-1252 を区別する限り

私を混乱させたもう1つのことは、ASCII、ISO-8859-1、windows-1252、UTF-8の間の文字セットを検出したいということでした。最低ランクのセットを与えるような方法で文字列を検出することは可能ですか? (すなわち。

$detect_order = array('ASCII', 'ISO-8859-1', 'Windows-1252','UTF-8'); はすべきではありません。次の結果が得られたので、これが間違っていることはわかっています

取得したいものに対して ('ASCII', 'ISO-8859-1', 'Windows-1252','UTF-8') の検出順序が間違っているのはなぜですか?

私が得た最も近い望ましい戻り値は

次の mb_detect_order 配列の両方で上記の値が得られました

これは私を混乱させています!

ふぅ、誰かがこれに光を当てることができますか? ありがとうございます!

0 投票する
2 に答える
1414 参照

java - 1252 から Java での Unicode .NET へのエンコード

.NET Web サービスを Java に移植したいという依頼があります。.NET で記述されたこのコードに相当する Java コードを見つける必要があります。

前もって感謝します!

0 投票する
1 に答える
634 参照

unicode - UTF-8として誤って保存されたデータからWindows-1252文字を再構築する

JavaHtmlUnitを使用してサンプリングされたデータを扱っています。WebページはWindows-1252エンコーディングを使用しましたが、応答はページがUTF-8としてエンコードされているかのように取得されました(つまり、HtmlUnit WebResponseオブジェクトのgetContentAsStringが呼び出されたときに、サーバーで指定されたエンコーディングを延期するのではなく、UTF-8エンコーディングが指定されました応答)。このプロセスを逆にして、誤ってラベル付けされたUTF-8文字データから元のWindows-1252データを再構築する方法はありますか?

このトピックに関する他のほとんどの質問は、ファイルのタイプを識別すること、または最初に正しくエンコードされた文字を1つのストリームタイプから別のストリームタイプに変換することに関するものです。ここではそうではありません。iconvなどのユーティリティは、ストリームが最初からソースエンコーディングで正しく永続化されていることを期待しているため、機能するとは思われません。

0 投票する
2 に答える
1938 参照

html - ブラウザの動作が必要なUTF-8ドキュメントでの€からŸへの仕様の正当化

0 投票する
1 に答える
2910 参照

ajax - AJAX 経由でロードされた ASP クラシックの文字セットが間違っている

ASP クラシック ページでのコンテンツの一部の動的読み込みに問題があります。選択したドロップダウン オプションに応じて、AJAX を使用して動的にページに読み込みます。Generated には、ドロップダウンとドロップダウン内のオプション テキストを含めるためのいくつかのラベルが含まれています。ラベルは UTF-8 でエンコードされた定数で、一部の西ヨーロッパのアクセント付き文字が含まれています。オプション テキストはデータベースから読み込まれ、アクセント付き文字も含まれていますが、ANSI でコーディングされています。タグは utf-8 に設定されていますが、ページにすべてがまとめられているため、ページの最初の読み込みのみに影響します。他のオプションを選択した後、AJAX は要素を入力し、ラベルを適切に読み込みますが、オプションのテキストが台無しになるため、AJAX はテキストを含むエンコーディングを 2 回目などで読み込まないと思います。回避策は、定数のラベル テキストを変更し、<% Response.Charset = "windows-1252" %> を設定することでした。初めて読み込まれるページ。今、できればAJAX応答ですべてをUTF-8またはwindows-1225に設定するか、ページ上の各要素をajaxで異なるコーディングに設定するためのより良い方法を見つけたいと思います。ASPクラシックの置換機能も試してみましたが、動作しますが、新しいアクセント付きの文字ごとに他の置換が必要です。どんな助けでも大歓迎です!:)