HTMLデータをスクレイピングするためにbeautifulsoupを使用しています。
私の問題は、出力に見たくない情報が表示されることです。そのため、正規表現を使用してその情報を削除しようとしましたが、
ただし、正規表現が苦手なので、スクリプトをここに置き、必要な出力を提供します。誰かが私を助けてくれることを願っています。
よろしく
私の出力は次のように表示されます:
<title>Music Games DVDs at JB Hi-Fi Australia</title>
Apple iPad mini 16GB Wi-Fi (Black) [Pick-up In-store Only]Â
<span class="SKU">MD528X/A</span>
Apple iPad mini 16GB Wi-Fi (White) [Pick-up In-store Only]Â
<span class="SKU">MD531X/A</span>
Apple iPad mini 32GB Wi-Fi (Black) [Pick-up In-store Only]Â
<span class="SKU">MD529X/A</span>
ただし、次のように表示したいだけです:
JB Hi-Fi Australia
Apple iPad mini 16GB Wi-Fi (Black)
Apple iPad mini 16GB Wi-Fi (White)
以下は私のスクリプトです
url1="http://www.jbhifionline.com.au/support.aspx?post=1&results=10&q=ipad+mini&source=all&bnSearch.x=0&bnSearch.y=0"
page=urllib2.urlopen(url1)
soup = BeautifulSoup(page.read())
#website source site name : <title>Music Games DVDs at JB Hi-FiAustralia</title>
sitename1=soup.html.head.title
print sitename1 ##issue here!!output shows <title>....</title>
#website source name:<td class="check_title">Apple iPad mini 16GB Wi-Fi (Black) [Pick-up In-store Only]<span class="SKU$`
productname1=soup.findAll('td',{'class':'check_title'})
for eachproductname1 in productname1:
print eachproductname1.renderContents().replace("^<span>","")