python - この正規表現を理解する

Question

<a>タグ内の URL リンクに一致するようにインターネットから取得した正規表現があります。以下のように表示されます。

variable = re.compile('<a\s(?:.*?\s)*?href=[\'"](.*?)[\'"].*?>')

<a>このパターンがタグの内容とどのように正確に一致するのか、誰か説明してくれませんか?

Unix での正規表現の基本的な理解はしていますが、これは私には複雑すぎるように見えます。説明してくれる人に感謝します。

score 3 · Accepted Answer

'<a\s(?:.*?\s)*?href=[\'"](.*?)[\'"].*?>'

それを分解しましょう。

これは英語で何という？

<a ANYTHING href=URL>

ANYTHING は無視され、URL がキャプチャされます。

細部:

score 0 · Accepted Answer

@Inbar ローズはすでにあなたの質問に詳細に答えていますが、リンクを取得するために正規表現を使用すると問題が発生するリンクがいくつかあるかもしれません.通常の分割関数を使用してそれらを取得できる場合は、一般的なhtml構文を考慮してください -

a='<a href="http://www.google.com">'r
print a.split('href=')[1].split('"')[1]

>> http://www.google.com

2 に答える 2