問題タブ [windows-1252]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
15493 参照

python - Python - 混合エンコーディング ファイルの処理

ほとんどが UTF-8 のファイルがありますが、一部の Windows-1252 文字も入り込んでいます。

Windows-1252 (cp1252) 文字から対応する Unicode 文字にマップするテーブルを作成しました。これを使用して、誤ってエンコードされた文字を修正したいと考えています。

しかし、この方法で置換しようとすると、UnicodeDecodeError が発生します。たとえば、次のようになります。

これに対処する方法についてのアイデアはありますか?

0 投票する
2 に答える
5784 参照

utf-8 - 文字セット特殊文字

  • iso-8859-1はutf-8の適切なサブセットですか?
  • iso-8859-nはどうですか?
  • windows-1252はどうですか?

上記のいずれかに対する答えが「いいえ」の場合、ばらばらの文字は何ですか?文字セットを検出するロジックをテストしていて、検出が正しく機能していることを確認するためのテストを作成したいと考えています。

0 投票する
2 に答える
8284 参照

javascript - ASCII>128の文字がJavascriptで正しく読み取られない

Javascriptファイルを含むHTMLがあります。このスクリプトには、特殊文字ASCII 152が含まれています。charCodeAtを表示しようとすると、異なる結果が得られますが、正しい結果は得られません。アドバイスをいただけますか?ありがとう

TEST.HTML

ANSIエンコーディングを使用したTEST.JSファイル

  • x-user-defined文字セットを使用したTEST.HTML:アラートは63384を示します。%63232では、128を超えるすべての文字が63232+charとして表示されるため機能します。
  • utf-8文字セットを使用したTEST.HTML:アラートは65533を示します。128を超えるすべての文字は65533として表示されます。
  • TEST.HTML with Windows-1252文字セット:アラートは752を示しています。ASCIIと表示内容の関係が見つかりません。

UTF-8エンコーディングを使用したTEST.JSファイル

  • x-user-defined文字セットを使用したTEST.HTML:アラートは65533を示します。128を超えるすべての文字は65533として表示されます。
  • utf-8文字セットを使用したTEST.HTML:アラートは65533を示します。128を超えるすべての文字は65533として表示されます。
  • TEST.HTML with Windows-1252文字セット:アラートは65533を示します。128を超えるすべての文字は65533として表示されます。
0 投票する
2 に答える
5379 参照

bash - Cygwin端末で特定の文字が表示されない?

wgetパッケージを追加して、ストックCygwinインストールを実行しています。

コマンドを実行すると

私はこれを取得します。文字の誤った表示に注意してください

ファイルをダウンロードしただけでは、メモ帳ではすべて問題なく表示されます。

0 投票する
1 に答える
2782 参照

c# - WebClientが「1252のエンコードに使用できるデータがありません」をスローします

私はプログラムを作成していますが、これはうまく機能していますが、更新システムの作成を開始し、どういうわけか機能していません。スプラッシュ画面は、webClientを使用して更新をチェックしますが、これもエラーのようです。スプラッシュ画面がテキストファイルをダウンロードするように設定しました。バージョンが一致しない場合は、別のフォームが起動し、webClientを使用してアップデータをダウンロードします。このフォームを2回作成しました。1つのprogressBar、1つのwebClient、画像の背景、1つのラベルがあります。アップデートはダウンロードされ、進行状況がバーに表示されてから、アップデータを開いてメインプログラムを閉じることになっています。初めてフォームを作成したときに実行すると、ファイルがフリーズしてダウンロードされませんでした。デバッグを停止した後、Visual C#Express 2010のデザインウィンドウがクラッシュし、vc#を再起動する必要がありました。ウィンドウには、webClientを除いて追加したすべてのアイテムが表示されます。

そこで、フォームからwebClientを削除して、再試行しました。同じエラーが2回発生しました。だから私は最初のエラーをグーグルで検索し、修正なしのhackforumsで1つの応答を見つけました。そして今、私は完全に失われました。私のすべてのwebClientは現在これを行っているようで、理由はわかりません。

これが私のスプラッシュ画面からのコードです:

そして、これが私のアップデーターからのコードです:

0 投票する
2 に答える
1961 参照

encoding - アラビア語を windows-1252 に変換する

Oracle データベースに大量のデータを挿入しています。

そのデータベースでは、テキストは windows-1252 形式で保存されます。

入力するものがたくさんあることが判明し、それらすべてをこの形式に変換する必要があります。また、これらのデータはすべてアラビア語です。

アラビア語の単語を Windows-1252 形式にエンコードするオンライン コンバーターまたはツールを見つけるのを手伝ってくれる人はいますか?

*詳細が十分であることを願っています

--ランガナ

0 投票する
3 に答える
59316 参照

java - 特定の文字エンコーディングを使用してJavaでファイルを読み取る方法は?

このメソッドの出力に応じて、UTF-8 または Windows-1252 としてファイルを読み取ろうとしています。

これまでのところ、私は持っています:

私が抱えている問題は、BufferedReaderインスタンスをFileReader.

さらに:

  • ファイル自体の名前 ( fileName) が特定のものであるとは信頼できませんCharset。ファイル名に UTF-8 文字が含まれることもあれば、Windows-1252 が含まれることもあります。ファイルの内容についても同様です (ただし、ファイル名とファイルの内容が常に一致する文字セットを持つ場合)。
  • getCorrectCharsetToApply()適用する文字セットを選択できるのは内部のロジックのみであるため、このメソッドを呼び出すにその名前でファイルを読み取ろうとすると、Java が間違ったエンコーディングでファイル名を読み取ろうとする結果が生じる可能性があります。 !

前もって感謝します!

0 投票する
2 に答える
5634 参照

java - Java は、不正な文字を含むファイル システム上のファイルを認識できません

本番環境で見られるエッジケースを試しています。クライアントがテキスト ファイルを生成し、それを FTP でサーバーに送信するビジネス モデルがあります。これらのファイルを取り込み、Java バックエンド (CentOS マシンで実行) で処理します。クライアントのほとんど (95% 以上) は、これらのファイルを必要な UTF-8 で生成することを知っています。ただし、CP1252 文字セットを使用して Windows マシン上でこれらのファイルを生成する頑固なクライアント (しかし大規模なアカウント) がいくつかあります。問題ありませんが、魔法のブードゥーを通じて任意の文字セットで入力を処理するように、サードパーティのライブラリ (ほとんどの「処理」作業を行うもの) を構成しました。

時折、名前に不正な UTF-8 文字 (CP1252) が含まれているファイルを目にすることがあります。私たちのソフトウェアが FTP サーバーからこれらのファイルを読み取ろうとすると、ファイル読み取りの通常の方法はチョークし、次のメッセージをスローしFileNotFoundExceptionます。

例外は次のようになります。

つまり、ファイル自体に不正な文字が含まれているため、そもそもそれを読み取ることさえできないということです。可能であれば、ファイルの内容に関係なく、ソフトウェアはそれを正しく処理できるはずです。したがって、これは実際には、不正な UTF-8 文字を含むファイル名を読み取る際の問題です。

テスト ケースとして、非常に単純な Java "アプリ" を作成して、サーバーの 1 つにデプロイし、いくつかのことをテストしました (ソース コードを以下に示します)。次に、Windows マシンにログインし、テスト ファイルを作成して名前を付けましたtest£.txt。ファイル名の「test」の後の文字に注意してください。これは Alt-0163 です。これを私たちのサーバーに FTP 送信し、ls -ltrその親ディレクトリで実行したとき、それが としてリストされているのを見て驚きましたtest?.txt

先に進む前に、この問題をテスト/再現するために作成した Java "アプリ" を次に示します。

これをターミナル ( java -cp . com/Driver t*) から実行すると、次の出力が得られます。

test�.txt?!?! 調査を行ったところ、「�」が Unicode 置換文字であることがわかりました\uFFFD。したがって、CentOS FTP サーバーが Alt-0163 ( ) の処理方法を認識していないため、 ( )に置き換えられていることが原因だと思います。しかし、なぜ...というファイルが表示されるのかわかりません。£\uFFFD�ls -ltrtest?.txt

いずれにせよ、解決策は、ファイル名にこの文字が含まれているかどうかを検索するロジックを追加し、見つかった場合はファイルの名前を別の名前に変更することであるようです (おそらく、文字列ごとreplaceAll("\uFFFD", "_")など)。システムが読み取って処理できること。

問題は、Java がファイル システム上のこのファイルを認識さえしないことです。CentOS はファイルがそこにある ( test?.txt) ことを認識していますが、そのファイルが Java に渡されると、Java はそれtest�.txtを何らかの理由でNo such file or directory...と解釈します。

Java にこのファイルを表示させて、実行できるようにするにはどうすればよいFile::renameTo(String)ですか? ここでの裏話で申し訳ありませんが、このシナリオではすべての詳細が重要であるため、関連性があると思います. 前もって感謝します!

0 投票する
1 に答える
3433 参照

character - C# - 文字の ANSI コード値を取得する

特定の文字の ANSI コード値を取得したいと考えています。たとえば、商標文字の int 値を取得すると、8482 が得られます。代わりに、コードページ 1252 の商標文字の値である 153 を取得したいと考えています。

いくつかの助けをいただければ幸いです。

ユルゲン

0 投票する
1 に答える
1314 参照

browser - Windows-1252として解釈せずにブラウザにISO-8859-1を表示させる

歴史的に、 ISO-8859-1Latin-1 )エンコーディングであると宣伝している多くのWebページには、実際にはWindows-1252エンコーディング(Latin-1の厳密なスーパーセット)のコンテンツが含まれていました。

これは、ブラウザがすべてのLatin-1テキストをWindows-1252であるかのように処理するように動作を更新するのに十分な問題でした。その後、この動作はHTML5[ドラフト]標準に合理化されました。

2つのエンコーディングの違いを示したい一連のページを書いていますが、Latin-1ページが実際にはLatin-1として扱われることはないため、これは不可能のようです。どのブラウザでも、実際にページのエンコーディングを尊重してデモを表示する方法はありますか?