問題タブ [python-unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6139 参照

python - Python エスケープ シーケンス \N{name} が定義どおりに機能しない

次のように名前を付けてUnicode文字を印刷しようとしています:

しかし、私が得る出力はあまり心強いものではありません。

エスケープ シーケンスはそのまま出力されます。

ただし、別の質問者がこれを成功させていることがわかります。

どうしたの?

0 投票する
1 に答える
27496 参照

python - Python 2.7 の Open() と codecs.open() の動作が奇妙に異なる

Unicode 文字の最初の行と ASCII の他のすべての行を含むテキスト ファイルがあります。最初の行を 1 つの変数として読み取り、他のすべての行を別の変数として読み取ろうとします。ただし、次のコードを使用すると:

次の出力が得られます。

readlines() を使用しない場合、 codecs.open() と open() の両方で最初の 7 行だけでなく、ファイル全体が読み取られます。

なぜそのようなことが起こるのですか?また、「r」パラメータが追加されているにもかかわらず、codecs.open() がバイナリ モードでファイルを読み取るのはなぜですか?

更新: これは元のファイルです: http://www1.datafilehost.com/d/0792d687

0 投票する
4 に答える
2994 参照

python - 電子メール パッケージで Python 3.x UnicodeDecodeError を処理するには?

次のように、ファイルからメールを読み取ろうとします。

そして、私はこのエラーを受け取ります:

ファイルにはマルチパート メールが含まれており、その部分は UTF-8 でエンコードされています。ファイルの内容またはエンコーディングが壊れている可能性がありますが、とにかく処理する必要があります。

Unicode エラーがある場合でも、ファイルを読み取るにはどうすればよいですか? ポリシー オブジェクトが見つかりませんcompat32。例外を処理して、例外が発生した場所で Python を続行させる方法がないようです。

私に何ができる?

0 投票する
1 に答える
371 参照

python - html.parser で消える Unicode

次のように、Unicode 文字を含む Web ページから HTML を抽出しています。

ご覧のとおり、正しくデコードしています。htmlUnicode 文字列もそうです。HTML を印刷すると、Unicode 文字が表示されます。

私はhtml.parserHTMLを解析し、それをサブクラス化するために使用しています:

クラスの を使用して HTML を解析handle_dataすると、Unicode 文字が削除されたり、突然消えたりするように見えます。ドキュメントには、エンコーディングについては何も言及されていません。HTML パーサーが非 ASCII 文字を削除するのはなぜですか? また、そのような問題を修正するにはどうすればよいですか?

0 投票する
2 に答える
356 参照

python - Flaskr UnicodeDecodeError

私はPythonの初心者です。Webフレームワークを学びたくて、Flaskを選びました。クイックスタートを実行しました。その後、チュートリアルを続けました。しかし、私は立ち往生しました。

このプロジェクトを github で複製した後 https://github.com/zhangjingqiang/flaskr

python flaskr.pyWeb ブラウザーを実行して開き、動作しているかどうかを確認しました。次のエラー メッセージが表示されました。

修正方法がわかりません。誰か助けてくれませんか?ありがとう。

0 投票する
2 に答える
3070 参照

python - python re (正規表現) には \u unicode エスケープ シーケンスの代替手段がありますか?

Python は \uxxxx を文字列リテラル内の Unicode 文字エスケープとして扱います (たとえば、u"\u2014" は Unicode 文字 U+2014 として解釈されます)。しかし、標準の正規表現モジュールが \uxxxx をユニコード文字として扱わないことを発見しました (Python 2.7)。例:

明らかに、正規表現パターンを文字列リテラルとして指定できる場合、正規表現エンジン自体が \uxxxx エスケープを理解した場合と同じ効果が得られます。

しかし、パターンを動的に構築する必要がある場合はどうでしょうか?

0 投票する
1 に答える
515 参照

regex - 正規表現 - Python で高い Unicode コードポイントを指定する

Python 3.3 では、正規表現内で Unicode コードポイントの範囲を問題なく使用できます。

すっきりとシンプルです。しかし、16 進数 5 桁のコードポイントを含めると、つまりのように、16 進数 4 桁で始まる範囲の一部\uffffとしてよりも大きいものを含めると、エラーが発生します。\u1047f

新しい 5 桁の範囲を開始してもエラーは発生しませんが、期待される動作も得られません。

(記号はそれぞれコードポイント\u10000\u10308、および\u10192であり、最後の操作で置き換えられているはずre.subです。)


受け入れられた回答の指示に従ってください:

完全。極端に醜いですが、完璧です。