python - 正規表現、Unicode パターンの検索

Question

score 4 · Accepted Answer

ページに非ラテン文字が含まれているからといって、それが Unicode でエンコードされているとは限りません (また、どの Unicode エンコーディング? utf-8? utf-16?)。

さらに、re.UNICODEおそらくあなたが思っていることはしません。ドキュメントから：

`\w、\W、\b、\B、\d、\D、\s`、および `\S` を Unicode 文字プロパティデータベースに依存させます。

これは、これらの特定の文字クラスがより広く定義されていることを意味し、ソーステキストには影響しません。

さらに、コーディング定義は、ソースファイル-*- coding: utf-8 -*-のエンコーディングのみを指定しています。

最後に、コメントの 1 つに記載されているように、� は現在の書体でサポートされていない文字を使用した結果である可能性があります。これは、テキストが別のエンコーディングでエンコードされているときに、特定のエンコーディングを想定した結果である可能性があります。

score 1 · Accepted Answer

これ自体は「答え」ではないかもしれませんが、http: //www.debuggex.com を使用して正規表現を少しデバッグしてみてください。

2 に答える 2