0

プロジェクトのデザインが不十分なWebページからテキストを抽出しようとしています.長い研究とpythonの学習の後、それを実現することに近づきましたが、Webページの設計が不十分で、適切な通常のものを見つけることができませんするための表現です。

ここに私が達成したものがあります。http://coj.uci.cu/24h/status.xhtml?username=Diego1149&abb=1006この Web ページのソース コードから、受け入れられた問題の最初のインスタンスの行全体を取得したいと考えています。だから私はこれを考えました

exprespatFinderTitle = re.compile('<table id="submission" class="volume">.*(<tr class=.*>.*<label class="AC">.*Accepted.*</label>.*</tr>).*</table>') 

<tr>しかし、これが行うことは、テーブルの最後までクリップアップすることです。誰かがこれを理解するのを手伝ってくれますか?

Python 2.7 whit BeautifulSoup と urllib を使用しています

4

1 に答える 1

0

BeautitfulSoup だけに固執します。正規表現はHTML 解析のツールではありません。

table = soup.find('table', id='submission')
accepted = table.tbody.find('label', class_='AC')
if accepted:
    row = accepted.parent.parent  # row with accepted column
于 2013-04-12T09:35:54.923 に答える