問題タブ [windows-1252]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - エンコード変換の問題の検出
私の会社の Web サイトのコンテンツの大部分は、Word ドキュメント (Windows-1252 エンコード) として作成され、最終的に UTF-8 エンコードのコンテンツ管理システムにコピー アンド ペーストされます。変換は通常、手動でクリーンアップする必要があるいくつかの文字 (特別な改行文字、スマート クォート、科学的表記法) で停止しますが、もちろん、常にいくつかの文字がすり抜けることがあります。
これらを検出する最善の方法は何だと思いますか?
c# - Streamwriter: ポーランド語の文字はスキップされますか?
私は、SAP インストールと Axapta インストールの間でデータを変換する人を支援する小さなツールを作成しようとしています。
西ヨーロッパ (Windows) エンコーディング (1252) のテキスト ファイルを取得します。彼らはいくつかのポーランド語の文字を置き換えるためにいくつかの特別な文字を入れました. これらの特殊文字を正しいポーランド文字に置き換えるのが私の仕事です。
アプリケーションをデバッグし、「objTemp2.WriteLine(strLineText);」にブレークポイントを設定すると、ライン。次に、strLineText 変数内の値が完全であることを確認できます。特殊文字は、正しいポーランド文字に置き換えられます。
書き込んだファイルを後で開くと、正しいポーランド語の文字が見つかりません。「ś」と「Ś」を使用していますが、どちらも「s」と「S」としてファイルに保存されています。
私は何かを見逃しましたか、それとも非常に重要な何かを見落としましたか?
encoding - Windows-1252 から UTF-8 へのエンコーディング
特定のファイルを Windows マシンから Linux マシンにコピーしました。そのため、Windows でエンコードされた (windows-1252) ファイルはすべて UTF-8 に変換する必要があります。すでに UTF-8 になっているファイルは変更しないでください。recode
そのためにユーティリティを使用する予定です。recode
ユーティリティが Windows-1252 でエンコードされたファイルのみを変換し、UTF-8 ファイルを変換しないように指定するにはどうすればよいですか?
recode の使用例:
myfile.txt
これにより、windows-1252 から UTF-8 に変換されます。myfile.txt
これを行う前に、実際には Windows-1252 でエンコードされており、UTF-8 でエンコードされていないことを知りたいです。そうしないと、ファイルが破損すると思います。
java - Java1.6Windows-1252エンコーディングが3文字で失敗する
編集:私はこの質問がやや無意味であると確信しています。回答してくださった方々に感謝します。より具体的なフォローアップの質問を投稿する場合があります。
今日、私はいくつかのエンコーディングの問題に投資し、基本的な再現ケースを分離するためにこの単体テストを作成しました。
出力:
MacOS10.6.2上のJDK1.6.0_07
私の観察:
Latin1は、254文字すべてを対称的にエンコードします。Windows-1252はそうではありません。印刷可能な3文字(193、205、207)は、Latin1とWindows-1252で同じコードであるため、問題は発生しないと思います。
誰かがこの振る舞いを説明できますか?これはJDKのバグですか?
-ジェームズ
unicode - UTF8 から 1252 までの Windows C API
私は WideCharToMultiByte および MultiByteToWideChar 変換に精通しており、これらを使用して次のようなことを行うことができます。
UTF8 -> UTF16 -> 1252
iconv が必要なことを行うことは知っていますが、これを 1 回の呼び出しで許可する MS ライブラリを知っている人はいますか?
おそらく、iconv ライブラリをプルする必要がありますが、怠け者です。
ありがとう
java - JavaでテキストコンテンツをUTF 8に正規化する方法
数千の text/html ファイルを含む CMS があります。ユーザーがさまざまな文字エンコーディング (utf-8、utf-8 w BOM、windows 1252、iso-8859-1) を使用して text/html ファイルをアップロードしていることが判明しました。
これらのファイルが読み込まれ、応答に書き込まれると、CMS のフレームワークは、応答の content-type 属性に charset=UTF-8 を強制します。
このため、UTF-8 以外のコンテンツは、文字化けした文字 (「ネイティブ」文字エンコーディングから UTF-8 への正しい文字変換がない場合、?、黒いひし形など) でユーザーに表示されます。また、これらのドキュメントには、文字セットを示すメタデータが添付されていません。私の知る限り、それらがどの文字セットであるかを知る唯一の方法は、テキスト レンダリング アプリ (Firefox、Notepadd++ など) でそれらを見て、「 」 コンテンツで、「見た目」が正しいかどうかを確認します。
不明なエンコーディングのファイルを自動的に/インテリジェントに UTF-8 に変換する方法を知っている人はいますか? これは統計モデリングで達成できると読んだことがありますが、それは私の頭の上にあるものです。
問題への最善のアプローチ方法についての考えは?
ありがとう
php - Jquery ajax呼び出しとcharset windows-1252
親愛なるstackoveflow、私はこの問題を抱えています。Windows 1252でエンコードされたすべてのテーブルを持つ古いバージョンのmssql(2000)を使用しています(それだけです)。次の行を使用して、php で正常に読み書きできます。
通常の投稿を行うと、すべてが期待どおりに機能します。 ajax スタイルで行うと、表にめちゃくちゃな文字を書きます。私もこれを試しました:
運がない。誰でも私を助けることができますか?
ありがとうございました
html - 送信された文字エンコーディング -- _charset_ 隠しフィールド
この Web アプリには、テキスト領域を含む複数の HTML ページがあります。すべてのページは ISO-8859-1 文字セットで表示されます。Windows マシンの IE6 を介してページにアクセスし、「スマート クォート」などの特殊文字がテキスト領域にコピーされると、一部のページは Windows 1252 文字エンコーディングを使用してページを送信します。他のページでは、ページは UTF-8 文字エンコーディングを使用して送信されているように見えます。次の非表示フィールドを使用して、送信文字エンコーディングを追跡しています。
Windows 1252 サブミット文字エンコーディング ページで、「windows-1252」の値を受け取ります。
UTF-8 送信文字エンコーディング ページでは、空白の値が返されます。
バックエンドでは、ISO-8859-1 を使用しています。送信文字エンコーディングが理想的ですが、IE 6 でその動作を強制するオプションはありません。ページが ISO-8859-1 で再レンダリングされるときに正しくレンダリングされるようにします。
ページを詳細に調べたところ、一部のページが 1 つの文字エンコーディングで送信される理由として、何も思い浮かびませんでした。
1) IE 6 が空白の文字セットを返す場合、それは実際に UTF-8 と同等ですか? 送信する文字エンコーディングが UTF-8 の場合、IE 6 は常に空白の文字セットを返しますか、それとも、使用する文字エンコーディングを適切に判断できない場合のみですか?
2) IE 6 が一部のページで Windows 1252 を選択し、他のページで UTF-8 を選択するページにどのような違いがある可能性がありますか? ページをスキャンして UTF-8 文字と accept-charset 属性を探しましたが、どちらも見つかりませんでした。
追記:次のリンクでcharset hidden 入力に関する情報を見つけました。
http://web.archive.org/web/20060427015200/ppewww.ph.gla.ac.uk/~flavell/charset/form-i18n.html
php - XMLReader -- utf 文字に関する問題の取得
私は巨大なxmlファイルを解析していますが、ファイルのエンコーディングは
< ? xml version="1.0" encoding="ISO-8859-1" ?>**太字
データベースのエンコーディングは utf8 で、何かがデータベースに保存される前にこのクエリを実行しています
$sql='SET NAMES "utf8" COLLATE "utf8_swedish_ci"';
問題は、Lycka™ のような非標準文字が xml ファイルに含まれることがあることです
: roman
商標記号が Windows-1252 エンコーディングに由来することはわかっています。
私はphpを使用しています。私はutf8_encodeを試しました。
ここはdbに保存され、
ここにブラウザの出力があります
utfに変換したい、それだけ
c# - vCard 用に Unicode を Windows-1252 に変換する
複数の連絡先を含む vCard (VCF) ファイルを連絡先ごとに個別のファイルに分割するプログラムをC#で作成しようとしています。vCard を読み取るには、ほとんどの携帯電話で ANSI (1252) として保存する必要があることを理解しています。
ただし、を使用して VCF ファイルを開き、 (エンコーディング形式として 1252 を設定して)StreamReader
で書き戻すとStreamWriter
、すべての特殊文字が , のようå
にæ
書き込まø
れ、?
. ANSI (1252) はこれらの文字を確実にサポートします。これを修正するにはどうすればよいですか?
編集:ファイルの読み取りと書き込みに使用するコードは次のとおりです。