問題タブ [python-unicode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
623 参照

javascript - UnicodeDecodeError:'ascii' codec...JavaScriptの構造をエンコードしようとしたとき

Python構造からUnicode文字列を作成しようとしています。このユニコード文字列を特定の構造にして、JavaScriptクライアントで使用できるようにするため、Pythonのデフォルトの文字列変換メソッドを使用したくありません。行でUnicodeDecodeErrorを取得します

私はもう試した

ファイルの先頭にあります。私も問題の行を試しました

strタイプが自動的にユニコードに変換されることを期待しています。私は何が間違っているのですか?

コードスニペットは次のとおりです。



0 投票する
3 に答える
3290 参照

python - shlex.split はまだユニコードをサポートしていませんか?

ドキュメントによると、Python 2.7.3 では、shlex は UNICODE をサポートする必要があります。ただし、以下のコードを実行すると、次のようになります。UnicodeEncodeError: 'ascii' codec can't encode characters in position 184-189: ordinal not in range(128)

私は何か間違ったことをしていますか?

正確なエラーは次のとおりです。

これは、macports の python を使用した私の mac からの出力です。「ネイティブ」python 2.7.3 を使用している Ubuntu マシンでもまったく同じエラーが発生します。

0 投票する
4 に答える
17906 参照

python - Python: UnicodeDecodeError が発生するのはなぜですか?

RE を使用してファイルを検索する次のコードがあり、一致するものが見つかった場合は、ファイルを別のディレクトリに移動します。

実行すると、次のエラーメッセージが表示されます。

このメッセージが表示される理由を誰か説明してください

0 投票する
1 に答える
552 参照

python - このランダムな Unicode 文字列を正規化できないのはなぜですか?

ユニコード文字列のレーベンシュタイン編集距離を評価する必要があります。つまり、編集距離にバイアスがかからないように、同一のコンテンツを含む 2 つの文字列を正規化する必要があります。

テスト用にランダムな Unicode 文字列を生成する方法は次のとおりです。

そして、ここに失敗している簡単なテストケースがあります:

そして、ここにエラーがあります:

uni実際に Unicode オブジェクトであることを確認しました。

誰かが私を啓発できますか?

0 投票する
3 に答える
6506 参照

python - zipfile抽出中のUnicodeエラー

.zipファイルを抽出する小さなスクリプトがあります。これはうまく機能しますが、ファイル名に「ä」、「ö」、「ü」などの文字が含まれるファイルを含まない.zipファイルの場合のみです。そうしないと、次のエラーが発生します。

これが私のスクリプトの抽出部分です:

どうすればこれを解決できますか?

0 投票する
0 に答える
136 参照

python - 文字列が Unicode 3.2.0 NFD にある場合、(Python 3.3 の unicodedata.normalize 関数を使用して) Unicode 6.1.0 NFC に構成しても安全ですか?

Python 3.3 で次のコードを検討してください。

最後のステートメントは動作することが保証されていますか? より良い質問は次のとおりだと思います: Unicode 3.2.0 に、Unicode 6.1.0 (Python 3.3 のデフォルト) でカバーされていない NFD シーケンスはありますか?

バイトレベルでblaは、 とまったく同じではない可能性があることを認識していますfoo。これは、マークの結合が最初から「非標準」の順序であった可能性があるためですfoo(たとえば、 \ u0071 \u0323ではなく \u0071 \u0307 \u0323 ) \u0307 .破損/スクランブルされているように見えるのではなく、エンド ユーザーと同じようにbla 見える限り問題ないと思います。foo

0 投票する
2 に答える
2570 参照

python-unicode - 文字列から繁体字のリストを作成する

私は現在、繁体字の大規模なサンプルで各文字が使用される回数を推定しようとしています。言葉ではなく文字に興味があります。このファイルには、句読点と西洋文字も含まれています。

繁体字のサンプルファイルを読んでいます。このファイルには、繁体字の大きなサンプルが含まれています。ここに小さなサブセットがあります:

首映鼓掌10分鐘評語指不同意《花樣年華》国片在柏林首映、完場後取全場鼓掌10分鐘。影展放映的《一代宗師》版本教李小龍武功葉問決戰散打王</ p>

矯正一增加的戲分是開場時葉話(梁朝偉陶)</ p>

私の戦略は、各行を読み、各行をリストに分割し、各文字を調べて、リストまたは文字の辞書にすでに存在するかどうかを確認することです。その文字がリストまたは辞書にまだ存在しない場合は、そのリストに追加します。リストまたは辞書に存在する場合は、その特定の文字のカウンターを増やします。おそらく、2つのリスト、文字のリスト、およびカウントを含む並列リストを使用します。これはより多くの処理になりますが、コーディングもはるかに簡単になるはずです。

私はまだこの点の近くに到達していません。

サンプルファイルを正常に読み取ることができます。次に、ファイルの各行のリストを作成できます。これらの個々の行を出力ファイルに印刷して、元のファイルを再構成することができます。繁体字中国語はそのまま表示されます。

しかし、特定の行の各文字のリストを作成しようとすると、問題が発生します。

次の記事を読みました。私はコメントの多くを理解しましたが、残念ながら、私の問題を解決するのに十分なコメントを理解することができませんでした。 単語の区切り文字として空白を使用しない言語(中国語など)でPython split()を実行するにはどうすればよいですか?

私のコードは次のようになります

さまざまなテストを通じて、次の行は文字列LINES[0]をその構成要素の漢字に分割していないと確信しています。

0 投票する
0 に答える
216 参照

python - Python UnicodeEncodeError:コーデックは文字をエンコードできません

Python スクリプト (checkData.py) から実行可能ファイルを作成しました

以下のような別のpythonスクリプトからこのexeファイルに、ロケール文字を含む文字列データを渡そうとしています:

呼び出し元スクリプトから印刷するとdataPath、ロケール文字が表示されます。exeファイルに渡された文字列を印刷しようとすると、エラーが発生しました。

これが私のエラーメッセージです:

以下のコマンドを実行すると:

「cp1254」を取得しました

私を手伝ってくれますか?

0 投票する
2 に答える
1514 参照

python - ユニコードコンテンツを含むXMLをアップロードしようとしたときのPythonftplibUnicodeEncodeError

ftplibを使用してユニコードコンテンツを含むXMLをFTPサーバーにアップロードしようとしていますが、storbinaryメソッドを使用してアップロードしようとすると次の例外が発生します。XMLデータはUnicode(utf-8)に適切にエンコードされていますが、それを確認しました。アップロード中にstorbinaryがそれを'ascii'にエンコードしようとしている理由がわかりません。誰か助けてもらえますか?

0 投票する
3 に答える
1478 参照

python - リストを印刷するときの括弧

これはsqlite特有のものではありませんが、pythonとsqlite3を学習してクエリの結果を一覧表示しているときに疑問に思いました。私は簡単なコードを持っています:

したがって、の結果print cursor.fetchall()は次のとおりです。[(u'koko',), (u'lolo',)] しかし、このコードでその種の印刷物を再作成しようとすると:

印刷結果は次のとおりです。['koko', 'lolo']

私が理解していない2つのこと:

  1. 印刷時に最初のリストにユニコードの「u」があり、2番目のリストにないのはなぜですか?
  2. (u'koko',)印刷時に最初のリストに括弧があり、2番目のリストにないのはなぜですか?

最初のリストはおそらくタプルのリストですか?