問題タブ [python-unicode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python エスケープ シーケンス \N{name} が定義どおりに機能しない
次のように名前を付けてUnicode文字を印刷しようとしています:
しかし、私が得る出力はあまり心強いものではありません。
エスケープ シーケンスはそのまま出力されます。
ただし、別の質問者がこれを成功させていることがわかります。
どうしたの?
python - Python 2.7 の Open() と codecs.open() の動作が奇妙に異なる
Unicode 文字の最初の行と ASCII の他のすべての行を含むテキスト ファイルがあります。最初の行を 1 つの変数として読み取り、他のすべての行を別の変数として読み取ろうとします。ただし、次のコードを使用すると:
次の出力が得られます。
readlines() を使用しない場合、 codecs.open() と open() の両方で最初の 7 行だけでなく、ファイル全体が読み取られます。
なぜそのようなことが起こるのですか?また、「r」パラメータが追加されているにもかかわらず、codecs.open() がバイナリ モードでファイルを読み取るのはなぜですか?
更新: これは元のファイルです: http://www1.datafilehost.com/d/0792d687
python - 電子メール パッケージで Python 3.x UnicodeDecodeError を処理するには?
次のように、ファイルからメールを読み取ろうとします。
そして、私はこのエラーを受け取ります:
ファイルにはマルチパート メールが含まれており、その部分は UTF-8 でエンコードされています。ファイルの内容またはエンコーディングが壊れている可能性がありますが、とにかく処理する必要があります。
Unicode エラーがある場合でも、ファイルを読み取るにはどうすればよいですか? ポリシー オブジェクトが見つかりませんcompat32
。例外を処理して、例外が発生した場所で Python を続行させる方法がないようです。
私に何ができる?
python - html.parser で消える Unicode
次のように、Unicode 文字を含む Web ページから HTML を抽出しています。
ご覧のとおり、正しくデコードしています。html
Unicode 文字列もそうです。HTML を印刷すると、Unicode 文字が表示されます。
私はhtml.parser
HTMLを解析し、それをサブクラス化するために使用しています:
クラスの を使用して HTML を解析handle_data
すると、Unicode 文字が削除されたり、突然消えたりするように見えます。ドキュメントには、エンコーディングについては何も言及されていません。HTML パーサーが非 ASCII 文字を削除するのはなぜですか? また、そのような問題を修正するにはどうすればよいですか?
python - Flaskr UnicodeDecodeError
私はPythonの初心者です。Webフレームワークを学びたくて、Flaskを選びました。クイックスタートを実行しました。その後、チュートリアルを続けました。しかし、私は立ち往生しました。
このプロジェクトを github で複製した後 https://github.com/zhangjingqiang/flaskr
python flaskr.py
Web ブラウザーを実行して開き、動作しているかどうかを確認しました。次のエラー メッセージが表示されました。
修正方法がわかりません。誰か助けてくれませんか?ありがとう。
python - python re (正規表現) には \u unicode エスケープ シーケンスの代替手段がありますか?
Python は \uxxxx を文字列リテラル内の Unicode 文字エスケープとして扱います (たとえば、u"\u2014" は Unicode 文字 U+2014 として解釈されます)。しかし、標準の正規表現モジュールが \uxxxx をユニコード文字として扱わないことを発見しました (Python 2.7)。例:
明らかに、正規表現パターンを文字列リテラルとして指定できる場合、正規表現エンジン自体が \uxxxx エスケープを理解した場合と同じ効果が得られます。
しかし、パターンを動的に構築する必要がある場合はどうでしょうか?
regex - 正規表現 - Python で高い Unicode コードポイントを指定する
Python 3.3 では、正規表現内で Unicode コードポイントの範囲を問題なく使用できます。
すっきりとシンプルです。しかし、16 進数 5 桁のコードポイントを含めると、つまりのように、16 進数 4 桁で始まる範囲の一部\uffff
としてよりも大きいものを含めると、エラーが発生します。\u1047f
新しい 5 桁の範囲を開始してもエラーは発生しませんが、期待される動作も得られません。
(記号はそれぞれコードポイント\u10000
、\u10308
、および\u10192
であり、最後の操作で置き換えられているはずre.sub
です。)
受け入れられた回答の指示に従ってください:
完全。極端に醜いですが、完璧です。