python - PythonHTMLParserを使用してHTMLタグコンテンツを抽出する方法

Question

私はHTMLページを処理していて、最終的に次のような行になりました。

<td class="border">AAA</td><td class="border">BBB</td>

HTMLParserを使用してAAAとBBBを変数に抽出する必要がありますが、それを簡単に行う方法がわかりません。他のパーサーを使用できません。Pythonツールに制限があるためです。どんな助けでもいただければ幸いです。

score 5 · Accepted Answer

これにより、TDタグ内のデータが出力されます。

from HTMLParser import HTMLParser

inTD = False

# create a subclass and override the handler methods
class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        global inTD
        if tag.upper() == "TD":
            inTD = True
    def handle_endtag(self, tag):
        global inTD
        if tag.upper() == "TD":
            inTD = False
    def handle_data(self, data):
        global inTD
        if inTD:
            print data

python - PythonHTMLParserを使用してHTMLタグコンテンツを抽出する方法

1 に答える 1

Related

Reference