ヘッドレス Selenium を使用して画像を含む Web サイトをスクレイピングしようとしています。最初に、Web サイトには 50 個の画像が入力されます。下にスクロールすると、さらに多くの画像が読み込まれます。
Windows 7 x64
python 2.7
の最近のセレンのインストール
[1] 非ヘッドレス Selenium
を使用して次のように Web サイトに移動します。
from selenium import webdriver
browser = webdriver.Firefox()
browser.get(url)
browser.execute_script('window.scrollBy(0, 10000)')
browser.page_source
これはうまくいきます(誰かがより良い提案を持っているなら、私に知らせてください). 最後に到達するまでscrollBy()
を続行し、ソース ページをプルできます。
[2] HTMLUNITによるヘッドレス
from selenium import webdriver
driver = webdriver.Remote(desired_capabilities=webdriver.DesiredCapabilities.HTMLUNIT)
driver.get(url)
このヘッドレス環境ではscrollBy()を使用できません。
この種のページをスクレイピングする方法について何か提案はありますか? ありがとう