<iframe> からのデータの取得に取り組んでいます。次に、を使用して <iframe> からデータを取得しますlxml
。
から <iframe> を取得できるリソースが見つかりませんでしたlxml
。
どうすればそれを達成できるか教えてくれる人はいますか?
src
から属性を抽出しiframe
、URL からデータを取得しurllib
、最後に を使用してこのデータを再度解析できますlxml
。
コード例 (未テスト):
from lxml.etree import fromstring
data = urllib.urlopen(url) # fetching url with iframe
tree = fromstring(data.read()) # parsing tree to get src attribute
src_url = tree.cssselect("iframe").attrib['src']
data = urllib.urlopen(src_url) # open iframe src url
tree = fromstring(data.read()) # parsing iframe tree
src
から属性を検索し、リクエスト lib によって urliframe
からデータをフェッチします。src
import lxml.html as lh
import requests
rq= requests.get(url)
content = rq.content
doc = lh.fromstring(content)
for i, elt in enumerate(doc.xpath('//[@id="page_content"]/div[2]/div/div/iframe')):
url_data = elt.attrib.get('src')
data = requests.get(url_data).content)