python-2.7 - Python での ReGex は正しい正規表現を見つけることができません

Question

プロジェクトのデザインが不十分なWebページからテキストを抽出しようとしています.長い研究とpythonの学習の後、それを実現することに近づきましたが、Webページの設計が不十分で、適切な通常のものを見つけることができませんするための表現です。

ここに私が達成したものがあります。http://coj.uci.cu/24h/status.xhtml?username=Diego1149&abb=1006この Web ページのソースコードから、受け入れられた問題の最初のインスタンスの行全体を取得したいと考えています。だから私はこれを考えました

exprespatFinderTitle = re.compile('<table id="submission" class="volume">.*(<tr class=.*>.*<label class="AC">.*Accepted.*</label>.*</tr>).*</table>')

<tr>しかし、これが行うことは、テーブルの最後までクリップアップすることです。誰かがこれを理解するのを手伝ってくれますか?

Python 2.7 whit BeautifulSoup と urllib を使用しています

score 0 · Accepted Answer

BeautitfulSoup だけに固執します。正規表現はHTML 解析のツールではありません。

table = soup.find('table', id='submission')
accepted = table.tbody.find('label', class_='AC')
if accepted:
    row = accepted.parent.parent  # row with accepted column

python-2.7 - Python での ReGex は正しい正規表現を見つけることができません

1 に答える 1

Related

Reference