HTML ページをクロールしていて、img src と a href を抽出したいと考えています。
特定のサイトでは、それらはすべて二重引用符で囲まれています。
さまざまな正規表現を試しましたが、成功しませんでした。二重引用符内の文字は [-\w/] (印刷可能な文字 [a-zA-Z\d-_] および / および .) であると仮定します。
パイソンでは:
re.search(r'img\s+src="(?P<src>[\w-/]+_"', line)
何も返しませんが、
re.search(r'img\s+src="(?P[-\w[/]]+)"', line)
wayy を多く返します (つまり、" で止まらない)。
正しい正規表現を作成する助けが必要です。前もって感謝します!