1

Pythonですべてのアンカーのhref属性HTMLを抽出するためのシンプルで堅牢かつ高速な方法はありますか?

BeautifulSoupを使用した解決策があることは知っていますが、BeautifulSoupの問題は、それが重すぎて、一部のURLで大量のメモリを消費することです。

私が話しているタスクは非常に単純です。HTMLを実行して、すべてのアンカーのすべてのHREFを返すだけです。

誰か知ってる?

ありがとう!

4

1 に答える 1

2

を使用できますHTMLParser

from HTMLParser import HTMLParser

class extract_href(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == "a":
            for key, val in attrs:
                if key == 'href':
                    print val

parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")
于 2012-10-29T17:59:50.980 に答える