私はHTMLページを処理していて、最終的に次のような行になりました。
<td class="border">AAA</td><td class="border">BBB</td>
HTMLParserを使用してAAAとBBBを変数に抽出する必要がありますが、それを簡単に行う方法がわかりません。他のパーサーを使用できません。Pythonツールに制限があるためです。どんな助けでもいただければ幸いです。
これにより、TDタグ内のデータが出力されます。
from HTMLParser import HTMLParser
inTD = False
# create a subclass and override the handler methods
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
global inTD
if tag.upper() == "TD":
inTD = True
def handle_endtag(self, tag):
global inTD
if tag.upper() == "TD":
inTD = False
def handle_data(self, data):
global inTD
if inTD:
print data