6

中国語の Web サイトから JavaScript で生成されたコンテンツをスクレイピングしようとしています。JavaScriptのコンテンツを直接スクレイピングできないため、Selenium(およびPython)を使用しています。

# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.selenium import selenium 

import time
import urllib2
import httplib
import urllib
import re
import base64

browser = webdriver.Firefox() # Get local session of firefox
browser.get("http://www...") # Load page (redacted here, but any works)
browser.get_body_text() #Attempt to scrape body text

そして、次のエラーが表示されます。

'WebDriver' object has no attribute 'get_body_text'

実際、selenium.selenium クラスのコマンドを呼び出すことができないようです。間違いなく、私は非常に明白な何かを見落としています。前もって感謝します。

4

1 に答える 1

5
  1. あなただけが必要from selenium import webdriverです。
  2. 実行html= browser.find_element_by_xpath(".//html")して、ページ上の最大の要素である html 要素を取得します。(これはさまざまな方法で行うことができ、任意の数の要素を選択できます。)
  3. html.textページのテキストを返すために実行します。

.textelementオブジェクトのメソッドです。elementステップ 2 は、 name へのの割り当てですhtml

于 2012-10-18T17:53:41.043 に答える