問題タブ [cp1252]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
788 参照

python - python unicode woes - cp1252 文字列を unicode に変換

アスキーではない文字セットについて根本的に混乱していると思います。

一番上にあると宣言したpythonファイルがあります# -*- coding: cp1252 -*-

question = "what is your borther’s name"たとえば、私が持っているファイルでは。

type(question)

>> 力

question

>>「あなたの兄弟の\xe2\x80\x99sの名前は何ですか」

また、おそらく ASCII から Unicode に移行できないため、現時点では Unicode に変換できません。

UnicodeDecodeError: 'ascii' コーデックは位置 20 のバイト 0xe2 をデコードできません: 序数が範囲外です (128)

最初にユニコードとして宣言した場合:

question = "what is your borther’s name"

>> あなたの兄弟の名前は何ですか?

「あなたの兄弟の名前は何ですか」を返すにはどうすればよいですか? それとも、Pythonインタープリターがユニコード文字列を表示する方法であり、実際にユニコード対応アプリケーション(この場合はOffice)に渡すと正しくエンコードされますか?

特殊文字を保持する必要がありますが、レーベンシュタイン ライブラリ ( pip install python-Levenshtein) を使用して文字列比較を行う必要があります。

Levenshtein.ratio は、両方の引数に str または unicode を取りますが、混合はできません。

0 投票する
0 に答える
571 参照

java - Unicode から CP1252 への変換

JAVA で暗号化されたファイルを読み込んでいますが、多くの不規則な文字が含まれています。問題は、私がそれをデコードしようとしているということですが、復号化アルゴリズムは、ネイティブの Java Unicode ではなく、CP1252 エンコーディングを使用して実装されています。

私が本質的に行っているのは、このファイルからバイトを読み取り、それらをchar []に保存することです。バイト配列を使用しない理由は、それらの値が符号なしである可能性があるためです。そのため、データが失われないようにしたかったのです。

とにかく私の質問は、データをバイトに変換せずに、Unicode エンコーディングから CP1252 エンコーディングに変換する方法はありますか?

私が必要とするものの例はこれです。

CP1252: € = 128 の値 (これが欲しい)

UNICODE の場合: € = 8364 の値 (これを読みました)

バイトを使用して変換すると、値が一定に保持されないため、char[] を使用しています。

0 投票する
1 に答える
1043 参照

python - Python は cp1252 を優先してエンコーディング引数を無視します

utf-8 文字を含む (そして utf-8 でエンコードされている) 長い json ファイルがあります。組み込みのjsonモジュールを使用してpythonで読みたいです。

私のコードは次のようになります。

「utf-8」引数はデフォルトとして想定されているため、不要であることは理解していますが。ただし、次のエラーが表示されます。

私の質問は: Python が私のエンコーディング仕様を無視して cp1252 でファイルを読み込もうとするのはなぜですか?

0 投票する
1 に答える
84 参照

url - (file-)webserver で UTF-8 でエンコードされたファイル名を許可しますか?

ユーザーが世界中からドキュメントをアップロードできる小さなファイルサーバーをホストしています。

エンコーディングに問題があるため (他の質問を参照)、 CP1252文字セットでサポートされていないファイルをユーザーがアップロード (およびダウンロード) することを禁止する必要があるかどうか自問自答しています。

もしくはそうでないか; ユーザーがファイル名にアラビア語または中国語の文字を含むドキュメントをアップロードできるようにすることは理にかなっていますか?

PS: しばらくしてから同じファイルをダウンロードします (アップロードしたファイル名と同じファイル名にする必要があります)。

0 投票する
5 に答える
75391 参照

java - Java、Ant エラー: Cp1252 をエンコードするためのマップできない文字

プロジェクトで Java、Eclipse、および Ant を使用しています。UTF-8 文字を編集して追加する必要がある Java コードがいくつかありました。以前、私の build.xml には次のものがありました: そして、うまくいきました。実行しようとしたときにこれらの UTF-8 文字を追加した後、「エラー: Cp1252 をエンコードするためのマップできない文字」がスローされます。

誰が修正が何であるか教えてください。XMLでエンコーディングをUTF-8とCp1252に変更しようとしましたが、うまくいきませんでした。

JRE7、Eclipse Kepler、および Ant 4.11 を使用しています。

0 投票する
2 に答える
4825 参照

python - Pythonでu'\uf04a'をユニコードに変換する方法

Python で u'\uf04a' をデコードしようとしているので、エラー警告なしで印刷できます。つまり、Microsoft Windows 1252 のばかげた文字を実際の Unicode に変換する必要があります。

異常なエラーを含む html のソースは、ここから来ていますhttp://members.lovingfromadistance.com/showthread.php?12338-HAVING-SECOND-THOUGHTS

ここをクリックして u'\uf04a' と u'\uf04c' について読んでください http://www.fileformat.info/info/unicode/char/f04a/index.htm

一例は次のようになります。

Out[408]: u'ああ神様、アドバイスをお願いします \uf04c'

テストの一例として、次のようなスレッドを指定します。

「charmap」コーデックは、位置 1526 の文字 u'\uf04a' をエンコードできません: 文字は未定義にマップされます

2 つの Python スクリプトの助けを借りて、u'\x92' を正常に変換しましたが、まだ u'\uf04a' のままです。助言がありますか?

参考文献

https://github.com/AnthonyBRoberts/NNS/blob/master/tools/killgremlins.py

Python を使用して、CSV 内の非標準のアメリカ英語の文字と記号を処理する

解決:

以下のコメントによると: これらの文字セットを疑問符 ('?') に置き換えます。

これが他の初心者に役立つことを願っています。

0 投票する
1 に答える
15997 参照

python - Numpy loadtxt エンコーディング

numpy.loadtxt でデータを読み込もうとしています... 読み込もうとしているファイルは cp1252 コーディングを使用しています。numpy でエンコーディングを cp1252 に変更する可能性はありますか?

以下

与えます:

このファイルには、メタデータ (最初の n 行) とそれに続く float のテーブルが含まれています。

編集: この問題は、これを Ubuntu (12.04) で実行している場合にのみ発生します。Windowsではうまく機能します。このため、この問題はエンコーディングに関連していると思います。

Edit2: 次のようにファイルを開くこともうまくいきます。

ただし、 np.loadtext を使用して、データを numpy 配列に直接読み込みたいと思います。

0 投票する
1 に答える
984 参照

eclipse - Eclipse に追加のエンコーディングをインストールできますか?

Windowsで作成された(そしてまだ使用されている)subversionリポジトリを使用する必要があるという問題があります。したがって、デフォルトのエンコーディングはCP-1252.

Linux でこのリポジトリをチェックアウトし、Eclipse を使用してそこにあるファイルを変更したいと考えています。Windows でのプログラムの動作がどれだけ良いかわからないため、可能であればiconvtoを使用してファイル全体を再エンコードしたくありません。UTF-8

私の最初のアイデアは、プロジェクトのエンコーディングを に設定することでしたCP-1252。Eclipse のインストール (Linux の Kepler)CP-125xでは、エンコードのオプションがありません。一部のみUTF-*ISO-8859-1選択可能です。

Eclipse にさらにエンコーディングをインストールする方法はありますか?