特に例を理解しようとして、Dive into Python を読んでいます。また、list-urls.py についていくつか質問がありました。
最後の行では、「parser.urls」から URL のリストをコンパイルします。このデータはどこから来たのですか?URLLister または SGMLparser に urls メソッドがありません。
また、メソッド start_a が作成されましたが、使用されませんでした。これは何ですか?
完全なコードへのリンク。以下は要約版ですhttp://pastebin.com/EbB4micK
#!/usr/bin/python
"""Extract list of URLs in a web page"""
from sgmllib import SGMLParser
import sys
class URLLister(SGMLParser):
def reset(self):
SGMLParser.reset(self)
self.urls = []
def start_a(self, attrs):
href = [v for k, v in attrs if k=='href']
if href:
self.urls.extend(href)
if __name__ == "__main__":
link = sys.argv[1]
try:
usock = urllib.urlopen(link)
parser = URLLister()
parser.feed(usock.read())
parser.close()
usock.close()
for url in parser.urls: print url