Python で URL 正規表現を探していましたが、スタック オーバーフローを読んだ後、http: //daringfireball.net/2010/07/improved_regex_for_matching_urlsを取得して、Python コードで使用することにしました。
私はこのようなものを入れました:
reg_url =
re.compile(r"""((?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|(([^\s()<>]+|(([^\s()<>]+)))\*))+(?:(([^\s()<>]+|(([^\s()<>]+)))\*)|[^\s`!()[]{};:`".,<>?«»“”‘’]))""",
re.DOTALL)
(パイソン2.7)
その正規表現でコードを実行した後、次のエラーが発生します。
\xe2
SyntaxError:ファイルの 60 行目に非 ASCII 文字 ' ' がありますfile.py
が、エンコードが宣言されていません。詳細については、 http://www.python.org/peps/pep-0263.htmlを参照してください。
この問題に対処する最善の方法は何ですか?