5

「www.youtube.com」に存在するすべてのimgタグを解析するためにbeautifulsoupを使用しています

コードは

import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.youtube.com/')
soup = BeautifulSoup(page)
tags=soup.findAll('img')

しかし、すべての img タグを取得しているわけではありません。取得する img タグも無効です。

解析後に取得した img タグは、ページ ソースの img タグとは異なります。一部の属性が欠落しています。

youtube.com のすべてのビデオ img タグを取得する必要があります

助けてください

4

6 に答える 6

5

ここで試してみるとうまくいくようです

import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.youtube.com/')
soup = BeautifulSoup(page)
tags=soup.findAll('img')
print "\n".join(set(tag['src'] for tag in tags))

私にはOKに見えるこれを生成します

http://i1.ytimg.com/vi/D9Zg67r9q9g/market_thumb.jpg?v=723c8e
http://s.ytimg.com/yt/img/pixel-vfl3z5WfW.gif
//s.ytimg.com/yt/img/pixel-vfl3z5WfW.gif
/gen_204?a=fvhr&v=mha7pAOfqt4&nocache=1337083207.97
http://i3.ytimg.com/vi/fNs8mf2OdkU/market_thumb.jpg?v=4f85544b
http://i4.ytimg.com/vi/CkQFjyZCq4M/market_thumb.jpg?v=4f95762c
http://i3.ytimg.com/vi/fzD5gAecqdM/market_thumb.jpg?v=b0cabf
http://i3.ytimg.com/vi/2M3pb2_R2Ng/market_thumb.jpg?v=4f0d95fa
//i2.ytimg.com/vi/mha7pAOfqt4/hqdefault.jpg
于 2012-05-15T12:03:34.830 に答える
3

同様の問題がありました。すべての画像を見つけることができませんでした。イメージ タグの任意の属性値を指定するコードは次のとおりです。

from BeautifulSoup import BeautifulSoup as BSHTML
import urllib2
page = urllib2.urlopen('http://www.youtube.com/')
soup = BSHTML(page)
images = soup.findAll('img')
for image in images:
    #print image source
    print image['src']
    #print alternate text
    print image['alt']
于 2017-11-07T20:25:50.097 に答える
0

明示的に使用soup.findAll(name='img')するとうまくいきましたが、ページから何も欠けているようには見えません。

于 2012-05-15T12:00:52.970 に答える