私は車のブログ、Jalopnikからいくつかのコメントを得ようとしています。最初はWebページに付属していませんが、代わりにコメントがJavascriptで取得されます。注目のコメントのみを取得します。すべてのコメントが必要なので、[すべて]([注目]と[新しいディスカッションの開始]の間)をクリックして取得します。
これを自動化するために、私はSeleniumを学習してみました。リンクをクリックするためのコードがとであると推測して、Pypiからスクリプトを変更しました。「すべて」ボタン(すべてのコメントを表示)が押されたようには見えません。link.click()
link = broswer.find_element_byxpath(...)
最終的には、そのバージョンのHTMLをダウンロードして解析したいと思います。
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import time
browser = webdriver.Firefox() # Get local session of firefox
browser.get("http://jalopnik.com/5912009/prius-driver-beat-up-after-taking-out-two-bikers/") # Load page
time.sleep(0.2)
link = browser.find_element_by_xpath("//a[@class='tc cn_showall']")
link.click()
browser.save_screenshot('screenie.png')
browser.close()