python - PythonでChromeDOMツリーにアクセスする

Question

Chrome DevToolsを使用すると、ページのDOMツリーを確認できます。Pythonを使用してそのツリーにアクセスして引き出す方法はありますか？

score 5 · Accepted Answer

私が見つけた最良の方法は、次を使用することでしたselenium.webdriver：

import selenium.webdriver as webdriver
import lxml.html as lh
import lxml.html.clean as clean

browser = webdriver.Chrome() # Get local session of Chrome
browser.get("http://www.webpage.com") # Load page

content=browser.page_source
cleaner=clean.Cleaner()
content=cleaner.clean_html(content) 
doc=lh.fromstring(content)

doc はDOMを次のように取得しますlxml.html.HtmlElement

score 2 · Accepted Answer

BeautifulSoup ライブラリを使用したことがありますか? チュートリアルのこのセクションは、あなたの質問に答えるかもしれません。 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#解析ツリー

次に、Requests ライブラリもインポートする必要があります。

from BeautifulSoup import BeautifulSoup
import requests
url = 'http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html'
page = requests.get(url)
soup = BeautifulSoup(page.content)
print soup

python - PythonでChromeDOMツリーにアクセスする

2 に答える 2

Related

Reference