Pythonですべてのアンカーのhref属性HTMLを抽出するためのシンプルで堅牢かつ高速な方法はありますか?
BeautifulSoupを使用した解決策があることは知っていますが、BeautifulSoupの問題は、それが重すぎて、一部のURLで大量のメモリを消費することです。
私が話しているタスクは非常に単純です。HTMLを実行して、すべてのアンカーのすべてのHREFを返すだけです。
誰か知ってる?
ありがとう!
Pythonですべてのアンカーのhref属性HTMLを抽出するためのシンプルで堅牢かつ高速な方法はありますか?
BeautifulSoupを使用した解決策があることは知っていますが、BeautifulSoupの問題は、それが重すぎて、一部のURLで大量のメモリを消費することです。
私が話しているタスクは非常に単純です。HTMLを実行して、すべてのアンカーのすべてのHREFを返すだけです。
誰か知ってる?
ありがとう!
を使用できますHTMLParser
。
from HTMLParser import HTMLParser
class extract_href(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == "a":
for key, val in attrs:
if key == 'href':
print val
parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")