http://www.verizonwireless.com/wcms/consumer/shop/share-everything.html
以下のコードを使用して、この Web ページからデータをスクレイピングしようとしています。
# -*- coding: cp1252 -*-
import csv
import urllib2
import sys
import urllib
import time
from bs4 import BeautifulSoup
from itertools import islice
url = 'http://www.verizonwireless.com/wcms/consumer/shop/share-everything.html'
user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1;Trident/5.0)'
req = urllib2.Request(url,headers={ 'User-Agent' : user_agent })
response = urllib2.urlopen(req)
page = response.read()
soup = BeautifulSoup(page)
tabcontent = soup.find('div', {"id": "uttsdPlanOptions", "class": "priceCol2"})
content = tabcontent.findAll('tr')
print content
コンテンツを印刷した後、ウェブサイトに記載されている GB 単位のデータ値を取得していないことに気付きました。「GB」部分の要素を調べてみると、この html 構造<p class="ptData">Shareable Data</p>
が見つかりました。この部分には GB についての言及がなく、リンクされた画像もありませんでした。 GB の欠損値を説明できた可能性があります。