python - [Python]で（htmlから）すべてのTRを検索する
中にあるものをすべて手に入れたい。私はこのコードを書きました：

`matchObj = re.search(r'<tr>(.*?)</tr>', txt, re.M|re.I|re.S)`

しかし、私は最初のグループしか取得しません。

どうすればすべてのグループを取得できますか？

前もって感謝しま

Question

中にあるものをすべて手に入れたい。私はこのコードを書きました：

matchObj = re.search(r'<tr>(.*?)</tr>', txt, re.M|re.I|re.S)

しかし、私は最初のグループしか取得しません。

どうすればすべてのグループを取得できますか？

前もって感謝します：）

score 9 · Accepted Answer

findall

matchObj = re.findall(r'<tr>(.*?)</tr>', txt, re.M|re.I|re.S)

search指定された文字列の最初のものだけを見つけます。

regexで使用できるさまざまな方法について詳しく読むことができます。

ただし、HTML を解析しているようです。なぜHTMl パーサーを使用しないのですか?

score 4 · Accepted Answer

複数の一致を取得するには、を使用しますre.findall()。

ただし、正規表現を使用してHTMLを解析すると、醜く複雑になります。代わりに、適切なHTMLパーサーを使用してください。

Pythonにはいくつかの選択肢があります。

ElementTreeの例：

from xml.etree import ElementTree

tree = ElementTree.parse('filename.html')
for elem in tree.findall('tr'):
    print ElementTree.tostring(elem)

BeautifulSoupの例：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('filename.html'))
for row in soup.select('table tr'):
    print row

2 に答える 2