この Web サイトhttp://tweakers.netからスマートフォンの価格を取得したいと考えています。オランダのサイトです。問題は、価格が Web サイトから収集されないことです。
テキストファイル「TweakersTelefoons.txt」には、次の 3 つのエントリが含まれています。
samsung-galaxy-s6-32gb-zwart
lg-nexus-5x-32gb-zwart
huawei-nexus-6p-32gb-zwart
私はpython 2.7を使用していますが、これは私が使用したコードです:
import urllib
import re
symbolfile = open("TweakersTelefoons.txt")
symbolslist = symbolfile.read()
symbolslist = symbolslist.split("\n")
for symbol in symbolslist:
url = "http://tweakers.net/pricewatch/[^.]*/" +symbol+ ".html"
## http://tweakers.net/pricewatch/423541/samsung-galaxy-s6-32gb-zwart.html is the original html
htmlfile = urllib.urlopen(url)
htmltext = htmlfile.read()
regex = '<span itemprop="lowPrice">(.+?)</span>'
## <span itemprop="lowPrice">€ 471,95</span> is what the original code looks like
pattern = re.compile(regex)
price = re.findall(pattern, htmltext)
print "the price of", symbol, "is ", price
出力:
samsung-galaxy-s6-32gb-zwart の価格は []
lg-nexus-5x-32gb-zwart の価格は []
huawei-nexus-6p-32gb-zwart の価格は []
価格は表示されません [^.] を使用してユーロ記号を削除しようとしましたが、うまくいきませんでした。
さらに、ヨーロッパでは「.」の代わりに「,」を使用する場合があります。小数点の区切りとして。助けてください。
前もって感謝します。