クラス拡張SGMLParserを作成します。
class URLLister(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
def start_title(self, attrs):
pass
def handle_data(self, data):
print data
非常に単純なコード。IMOstart_title
は<title>
、タグに遭遇handle_data
したときに呼び出され、通常のテキストに遭遇したときに呼び出されました。今、私は<title>
との間のテキストを抽出したい</title>
、例えば
<html><head><title>Webpage title</title></head><body>Simple text</body></html>
Webpage title
between<title>
タグを印刷したいのですが、タグを使用すると、とhandle_data
を含むすべての単純なテキストが出力されます。タグの間にテキストを出力する方法は?Webpage title
Simple text
<title>