私のコンピューターが他の人のコンピューターとは異なる方法でこの python スクリプトに反応するという奇妙な問題があります (私は macOX Mountain Lion python v =2.7 を使用しています)。これを修正する方法、またはシステムの出力を報告してください。他の人はすべての行を適切に取得しているように見えますが、私は 1 行の出力しか取得しません。残念ながら、私のシステムでは動作しません。動作するために必要なのは私です。私のシステムは、クロールされているテーブルの最後の行を出力します:
import urllib
from bs4 import BeautifulSoup
#file_name = "/users/ripple/uspc-cpc.txt"
#file = open(file_name,"w")
i=125
while i==125:
url = "http://www.uspto.gov/web/patents/classification/cpc/html/us" + str(i) + "tocpc.html"
print 'Grabbing from: ' + url + '\n'
i += 1
#get the table data from the page
data = urllib.urlopen(url).read()
#send to beautiful soup
soup = BeautifulSoup(data)
table = soup.find("table", width='80%')
for tr in table.findAll('tr')[2:]:
col = tr.findAll('td')
#print 'hi'
uspc = col[0].get_text().encode('ascii','ignore').replace(" ","")
cpc1 = col[1].get_text().encode('ascii','ignore').replace(" ","")
cpc2 = col[2].get_text().encode('ascii','ignore').replace(" ","")
cpc3 = col[3].get_text().encode('ascii','ignore').replace(" ","").replace("more...", "")
record = uspc + ',' + cpc1 + ',' + cpc2 + ',' + cpc3 + '\n'
print record
#file.write(record)
#file.close()