python - HTML img を解析するための正規表現

Question

HTML ページをクロールしていて、img src と a href を抽出したいと考えています。

特定のサイトでは、それらはすべて二重引用符で囲まれています。

さまざまな正規表現を試しましたが、成功しませんでした。二重引用符内の文字は [-\w/] (印刷可能な文字 [a-zA-Z\d-_] および / および .) であると仮定します。

パイソンでは：

re.search(r'img\s+src="(?P<src>[\w-/]+_"', line)

何も返しませんが、

re.search(r'img\s+src="(?P[-\w[/]]+)"', line)

wayy を多く返します (つまり、" で止まらない)。

正しい正規表現を作成する助けが必要です。前もって感謝します！

score 6 · Accepted Answer

正しい正規表現を作成する助けが必要です。

いいえ、適切なツールを見つけるには助けが必要です。

BeautifulSoupをお試しください。

_{（正規表現の使用を主張する場合は、私はそれをお勧めしませんが、 greedy+を non-greedy に変更してみてください+?）。}

score 5 · Accepted Answer

優れたlxmlライブラリとxpathを使用して、正規表現よりも優れた方法の例を次に示します。

In [1]: import lxml.html
In [2]: doc = lxml.html.parse('http://www.google.com/search?q=kittens&tbm=isch')
In [3]: doc.xpath('//img/@src')
Out[3]: 
['/images/nav_logo_hp2.png',
 'http://t1.gstatic.com/images?q=tbn:ANd9GcQhajNZimPGLw9iTfzrAF_HV5UogY-KGep5WYgw-VHZ15oaAwGquNb5Q2I',
 'http://t2.gstatic.com/images?q=tbn:ANd9GcS1LgVIlDgoIfNzwU4xBz9fL32ZJjZU26aB4aynRsEcz2VuXmjCtvxUonM',
 'http://t1.gstatic.com/images?q=tbn:ANd9GcRgouJt5Moe8uTnDPUFTo4csZOcBtEDA_B7WdRPe8pdZroR5QB2q_-LT59G',
 [...]
]

score 2 · Accepted Answer

あなたが行う引用符の中にあるものを見つけるための良いトリック"([^"]+)"。したがって、引用符の間にある引用符以外の文字を検索します。

正規表現の作成については、Expresso（http://www.ultrapico.com/Expresso.htm）を強くお勧めします。

python - HTML img を解析するための正規表現

3 に答える 3

Related

Reference