0
4

2 に答える 2

4

ページに非ラテン文字が含まれているからといって、それが Unicode でエンコードされているとは限りません (また、どの Unicode エンコーディング? utf-8? utf-16?)。

さらに、re.UNICODEおそらくあなたが思っていることはしません。ドキュメントから:

`\w、\W、\b、\B、\d、\D、\s`、および `\S` を Unicode 文字プロパティ データベースに依存させます。

これは、これらの特定の文字クラスがより広く定義されていることを意味し、ソース テキストには影響しません。

さらに、コーディング定義は、ソース ファイル-*- coding: utf-8 -*-のエンコーディングのみを指定しています。

最後に、コメントの 1 つに記載されているように、� は現在の書体でサポートされていない文字を使用した結果である可能性があります。これは、テキストが別のエンコーディングでエンコードされているときに、特定のエンコーディングを想定した結果である可能性があります。

于 2013-03-25T23:25:41.513 に答える
1

これ自体は「答え」ではないかもしれませんが、http: //www.debuggex.com を使用して正規表現を少しデバッグしてみてください。

于 2013-03-25T22:19:30.447 に答える