python - lxml を使用して iframe を解析する

Question

から <iframe> を取得できるリソースが見つかりませんでしたlxml。

どうすればそれを達成できるか教えてくれる人はいますか?

score 5 · Accepted Answer

srcから属性を抽出しiframe、URL からデータを取得しurllib、最後にを使用してこのデータを再度解析できますlxml。

コード例 (未テスト):

from lxml.etree import fromstring
data = urllib.urlopen(url) # fetching url with iframe
tree = fromstring(data.read()) # parsing tree to get src attribute
src_url = tree.cssselect("iframe").attrib['src']
data = urllib.urlopen(src_url) # open iframe src url
tree = fromstring(data.read()) # parsing iframe tree

score 1 · Accepted Answer

srcから属性を検索し、リクエスト lib によって urliframeからデータをフェッチします。src

import lxml.html as lh
import requests


rq= requests.get(url)

content = rq.content

doc = lh.fromstring(content)

for i, elt in enumerate(doc.xpath('//[@id="page_content"]/div[2]/div/div/iframe')):

     url_data = elt.attrib.get('src')
     data = requests.get(url_data).content)

python - lxml を使用して iframe を解析する

2 に答える 2

Related

Reference