Beautiful Soup は、HTML および XML ファイルからデータを引き出すための Python ライブラリです。anchor label
これを使用して Web ページ データを抽出しますが、私の場合はページ ナビゲーションで使用されるボタンをクリックする方法がわかりませんでした。そのため、私は他のものを使用するか beautiful soup
、私が知らなかった機能を持っている必要があります。
私にアドバイスしてください!
Beautiful Soup は、HTML および XML ファイルからデータを引き出すための Python ライブラリです。anchor label
これを使用して Web ページ データを抽出しますが、私の場合はページ ナビゲーションで使用されるボタンをクリックする方法がわかりませんでした。そのため、私は他のものを使用するか beautiful soup
、私が知らなかった機能を持っている必要があります。
私にアドバイスしてください!
タグ/コメントに答えるために、はい、それらを一緒に使用できます(SeleniumとBeautifulSoup)。いいえ、BeautifulSoupを直接使用してイベント(クリックなど)を実行することはできません。私自身、同じ状況でこれらを一緒に使用したことはありませんが、架空の状況では、Seleniumを使用して特定のパス(つまりclick()
、これらのオプション、次にclick()
次のページへのボタン)を介してターゲットページに移動し、BeautifulSoupを使用することがあります。読むためにdriver.page_source
(driver
ブラウザを「駆動」するために作成したSeleniumドライバはどこにありますか)。はページのHTMLであるためdriver.page_source
、BeautifulSoupを使い慣れた方法で使用して、必要な情報を解析できます。
簡単な例:
from bs4 import BeautifulSoup
from selenium import webdriver
# Create your driver
driver = webdriver.Firefox()
# Get a page
driver.get('http://news.ycombinator.com')
# Feed the source to BeautifulSoup
soup = BeautifulSoup(driver.page_source)
print soup.title # <title>Hacker News</title>
主なアイデアは、ページのソースを読む必要があるときはいつでも、好きなものを読むために渡すことができるdriver.page_source
というBeautifulSoup
ことです。