python - PythonでHTMLからすべてのアンカーを抽出する高速な方法

Question

Pythonですべてのアンカーのhref属性HTMLを抽出するためのシンプルで堅牢かつ高速な方法はありますか？

BeautifulSoupを使用した解決策があることは知っていますが、BeautifulSoupの問題は、それが重すぎて、一部のURLで大量のメモリを消費することです。

私が話しているタスクは非常に単純です。HTMLを実行して、すべてのアンカーのすべてのHREFを返すだけです。

誰か知ってる？

ありがとう！

score 2 · Accepted Answer

を使用できますHTMLParser。

from HTMLParser import HTMLParser

class extract_href(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == "a":
            for key, val in attrs:
                if key == 'href':
                    print val

parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")

python - PythonでHTMLからすべてのアンカーを抽出する高速な方法

1 に答える 1

Related

Reference