HTMLページ内で繰り返しパターンを探しています。
私が興味を持っているパターンは、接頭辞「<h2> Seasons </ h2>」
の後に始まります。同じパターンが接頭辞の前にも発生しますが、私はそれらに興味がありません。
私は次のPythonコードで試しました(そして失敗しました)(この質問を読みやすくするために、パターンを「<ahref =。+?</a>」に簡略化しました):
matches = re.compile('<h2>Seasons</h2>.+?(<a href=.+?</a>)+',re.DOTALL).findall(page)
for ref in matches
print ref
ページを考えると:
blah blah html stuff
<h2>Seasons</h2>
blah blah more html stuff
<a href=http://www.111.com>111</a><a href=http://www.222.com>222</a><a href=http://www.333.com>333</a>
出力は
<a href=http://www.333.com>333</a>
したがって、最後の一致のみが出力され、他の2つはfindallリストに含まれません。グループのすべての一致を反復処理するにはどうすればよいですか?