python - Python の画像スクレイピングプログラムが意図したとおりに機能しない

Question

私のコードは空の文字列しか返さないのですが、その理由がわかりません。

import urllib2

def getImage(url):
    page = urllib2.urlopen(url)
    page = page.read() #Gives HTML to parse

    start = page.find('<a img=')
    end = page.find('>', start)

    img = page[start:end]

return img

最初に見つかった画像のみを返すため、あまり優れた画像スクレーパーではありません。とはいえ、私の今の主な目標は、画像を見つけられるようにすることです。できません。

score 2 · Accepted Answer

BeautifulSoupを使用してHTMLを解析することを検討してください。

from BeautifulSoup import BeautifulSoup
import urllib
url  = 'http://www.google.com'
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for img in soup.findAll('img'):
     print img['src']

score 2 · Accepted Answer

これにはライブラリを使用する必要があり、そこにはいくつかありますが、表示されたコードを変更して質問に答えるには...

あなたの問題は、画像を見つけようとしていることですが、画像は<a ...>タグを使用していません。彼らは<img ...>タグを使用します。次に例を示します。

<img src="smiley.gif" alt="Smiley face" height="42" width="42">

あなたがすべきことは、あなたのstart = page.find('<a img=')行をstart = page.find('<img ')次のように変更することです:

def getImage(url):
    page = urllib2.urlopen(url)
    page = page.read() #Gives HTML to parse

    start = page.find('<img ')
    end = page.find('>', start)

    img = page[start:end+1]
    return img

score 0 · Accepted Answer

ルビーによる画面スクレイピングに関する記事： http ： //www.igvita.com/2007/02/04/ruby-screen-scraper-in-60-seconds/画像をスクレイピングするのではなく、良い記事であり、役立つ可能性があります。

score 0 · Accepted Answer

役立つかもしれないいくつかの指示：

Google Chrome を使用します。マウスを画像の上に置き、右クリックします。「要素の検査」を選択します。これにより、画像の近くに html が表示されるセクションが開きます。

Beautiful Soup を使用して HTML を解析します。

from BeautifulSoup import BeautifulSoup

request = urllib2.Request(url)
response = urllib2.urlopen(request)
html = response.read()
soap = BeautifulSoap(html)
imgs = soup.findAll("img")
items = []
for img in imgs:
    print img['src'] #print the image location
    items.append(img['src']) #store the locations for downloading later

score 0 · Accepted Answer

この方法で画像情報を抽出するのは得策ではありません。あなたの知識と何か新しいことを学ぶ動機に応じて、いくつかのより良いオプションがあります。

http://scrapy.org/は、Web ページからデータを抽出するための非常に優れたフレームワークです。あなたが初心者のように見えるので、少しやり過ぎかもしれません。
正規表現を学んで情報を抽出: http://docs.python.org/library/re.htmlおよび正規表現の学習
http://www.crummy.com/software/BeautifulSoup/を使用して、の結果からデータを解析しますpage.read()。

python - Python の画像スクレイピング プログラムが意図したとおりに機能しない

5 に答える 5

Related

Reference

python - Python の画像スクレイピングプログラムが意図したとおりに機能しない