問題タブ [python-unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
947 参照

python - Python のユニコード

現在、mysqlデータベースでelixirを使用し、redisでredispyを使用しており、すべての場所でUTF-8を選択しています。私はいくつかのデータを中国語で書きたいと思っています{'Info':‘8折’,'Name':'家乐福'}が、私が得たのは次のようなものです:

そして、このdictをredisに保存し、redispyで取得すると、次のようになります。

u'前に追加8\u6298して印刷すると、それが表示されることはわかって"8折"いますが、この問題に対する機能または別の解決策はありますか?

0 投票する
34 に答える
1982488 参照

python - UnicodeEncodeError: 'ascii' コーデックは位置 20 の文字 u'\xa0' をエンコードできません: 序数が範囲内にありません(128)

別の Web ページ (別のサイト) から取得したテキストからの Unicode 文字の処理に問題があります。BeautifulSoupを使用しています。

問題は、エラーが常に再現できるとは限らないことです。一部のページで動作することもあれば、UnicodeEncodeError. 考えられることはすべて試してみましたが、何らかの Unicode 関連のエラーをスローせずに一貫して動作するものは見つかりませんでした。

問題を引き起こしているコードのセクションの 1 つを以下に示します。

上記のスニペットを実行したときに、一部の文字列で生成されるスタック トレースを次に示します。

これは、一部のページ (より具体的には、一部のサイトのページ) がエンコードされている可能性があり、他のページがエンコードされていない可能性があるためだと思われます. すべてのサイトは英国に拠点を置いており、英国での消費を目的としたデータを提供しているため、英語以外で書かれたテキストの内部化や処理に関連する問題はありません.

この問題を一貫して修正できるように、これを解決する方法について何か考えがある人はいますか?

0 投票する
2 に答える
28622 参照

python - Python 2.7 小文字

Python 2.7 で使用する.lower()と、文字列が文字の小文字に変換されませんŠČŽ。辞書からデータを読み取ります。

str(tt["code"]).lower()、を使ってみtt["code"].lower()ました。

助言がありますか ?

0 投票する
0 に答える
73 参照

django-testing - Django テストからエスケープされていない utf-8 出力を取得するにはどうすればよいですか?

Python 2.7 で Django 1.3 を使用すると、次のようなテストケースが作成されます。

出力が得られます:

が見たいです:

端末は utf-8 をサポートし、utf-8 は他の場所ではエスケープされずに出力され、テストからの出力のみがエスケープされます。

  • self.fail(msg.encode('utf-8')) を実行しようとしましたが、UnicodeDecodeError が発生します。
  • DEFAULT_CHARSET と TESTING_CHARSET を設定してみましたが、効果がありません。

この出力を得るには何を変更する必要がありますか?

0 投票する
3 に答える
55459 参照

python - 特殊文字を表示する Python

この問題に関するスレッドがたくさんあることは知っていますが、問題を解決するスレッドを見つけることができませんでした。

文字列を印刷しようとしていますが、印刷すると特殊文字 (æ、ø、å、ö、ü など) が表示されません。これを使用して文字列を印刷すると、次のrepr()ようになります。

u'Von D\xc3\xbc'u'\xc3\x96berg'

Von Düこれをand に変換する方法を知っている人はいますÖbergか? これらの文字が無視されないことが重要ですmyStr.encode("ascii", "ignore")

編集

これは私が使用するコードです。BeautifulSoup を使用して Web サイトをスクレイピングしています。<td>テーブル ( ) 内のセル ( ) の内容は<table>、変数 に入れられますname。これは、印刷できない特殊文字を含む変数です。

0 投票する
3 に答える
149620 参照

python - Python 文字列からユニコードへ

重複の可能性:
ASCII 文字列をユニコードとして扱い、Python でエスケープ文字をエスケープ解除するにはどうすればよいですか?
Python文字列でUnicodeエスケープシーケンスをUnicode文字に変換する方法

などのユニコード文字を含む文字列があります\u2026。どういうわけか、として受信されませんがunicode、として受信されstrます。どうすればユニコードに戻すことができますか?

明らかunicode(a)に答えではありません。じゃあ何?

0 投票する
9 に答える
352343 参照

python - PythonでUnicode文字を印刷するには?

英語の単語がロシア語とフランス語の翻訳を指す辞書を作りたいです。

PythonでUnicode文字を出力するにはどうすればよいですか? また、ユニコード文字を変数にどのように格納しますか?

0 投票する
6 に答える
412206 参照

python - SyntaxError: 関数が '£' を返す場合、ファイル内の非 ASCII 文字 '\xa3'

関数があるとします:

前にポンド記号を付けて印刷したいのですが、このプログラムを実行しようとするとエラーが表示され、次のエラーメッセージが表示されます。

return 関数にポンド記号を含める方法を教えてもらえますか? 基本的に授業で使ってい'__str__'てシャープ記号が入っている部分です。

0 投票する
1 に答える
1331 参照

python - UnicodeDecodeError、PythonでのSnowballステミングアルゴリズムのASCII処理

自分で作成したプログラムに一般的なファイルを読み込むのに問題があります。私が現在抱えている問題は、PDFが、私の操作全体にレンチを投げ込むBOMを含むある種の変異したutf-8に基づいていることです。私のアプリケーションでは、ASCII入力を必要とするSnowballステミングアルゴリズムを使用しています。utf-8に向けてエラーを解決することに関するトピックは多数ありますが、Snowballアルゴリズムにエラーを送信することや、ASCIIが最終結果になりたいという事実を考慮することはありません。現在使用しているファイルは、標準のANSIエンコーディングを使用したメモ帳ファイルです。私が受け取る特定のエラーメッセージはこれです:

私の理解では、Python内では、ignore引数を含めると、検出されたASCII以外の文字が渡されるだけであり、このようにしてBOMや特殊文字をバイパスしますが、明らかにそうではありません。呼び出される実際のコードは次のとおりです。

文字列の前に一般的な貪欲でない非文字の正規表現の削除を含めることで、問題のある文字が削除されることも期待していましたが、これもそうではありません。私はASCII以外の多くのエンコーディングを試みましたが、厳密なbase64エンコーディングは機能しますが、私のアプリケーションには非常に理想的ではありません。自動化された方法でこれを修正する方法についてのアイデアはありますか?

Elementの初期デコードは失敗しますが、実際にエンコーダーに渡されると、Unicodeエラーを返します。

示されているコードは、見られているカリキュラム要素を生成します。

この型キャストのハックアラウンドは実際には機能しますが、ASCIIへの変換は少し不安定です。このエラーを返します:

0 投票する
3 に答える
3990 参照

python - URL取得時のUnicodeEncodeError

lxml を使用して HTML ドキュメント内のすべてのテキスト ノードを取得しようとすると、この問題が発生しますが、 UnicodeEncodeError: が発生し'ascii' codec can't encode character u'\xe9' in position 8995: ordinal not in range(128)ます。encoding = chardet.detect(response)['encoding']しかし、このページ ( )のエンコーディングの種類を調べようとすると、 と表示されますutf-8。1 つのページに utf-8 と ascii があるのは奇妙に思えます。実際、これは:

問題を解決します。

これが私のコードです:

出力:

この問題を解決するにはどうすればよいですか? 他のいくつかのページでこれを行いたいので、個別にエンコードしたくないことに注意してください。

アップデート:

たぶん、ここで何か他のことが起こっています。ターミナルでこのスクリプトを実行すると、正しい出力が得られますが、SublimeText 内で実行すると、UnicodeEncodeError が発生します... ¿

更新 2:

この出力でファイルを作成するときにも発生します。.encode('ascii', 'replace')動作していますが、より一般的な解決策が必要です。

よろしく