クラス拡張SGMLParserを作成します。
class URLLister(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
def start_title(self, attrs):
pass
def handle_data(self, data):
print data
非常に単純なコード。IMOstart_titleは<title>、タグに遭遇handle_dataしたときに呼び出され、通常のテキストに遭遇したときに呼び出されました。今、私は<title>との間のテキストを抽出したい</title>、例えば
<html><head><title>Webpage title</title></head><body>Simple text</body></html>
Webpage titlebetween<title>タグを印刷したいのですが、タグを使用すると、とhandle_dataを含むすべての単純なテキストが出力されます。タグの間にテキストを出力する方法は?Webpage titleSimple text<title>