私はこれのバリエーションで遊んで髪を引き裂いています:
'//*[@id="mw-content-text"]/div[2]/table/tbody/tr/td/div/ul/li/a'
この Wiki ページからすべての学区の URL を取得するための XPath として: http://en.wikipedia.org/wiki/List_of_school_districts_in_Arkansas。正しいXPathは何ですか?
前もって感謝します!
コードスニペット:
print 3.1, tree.xpath('//*[@id="mw-content-text"]/div[2]')
print 3.2, tree.xpath('//*[@id="mw-content-text"]/div[2]/table')
print 3.3, tree.xpath('//*[@id="mw-content-text"]/div[2]/table/tbody')
print 3.4, tree.xpath('//*[@id="mw-content-text"]/div[2]/table/tbody')
print 3.5, tree.xpath('//*[@id="mw-content-text"]/div[2]/table/tbody/tr/td/div/ul/li/a/text()')
for row in tree.xpath('//*[@id="mw-content-text"]/div[2]/table/tbody/tr/td/div/ul/li/a/text()'):
print row
district_urls.append('http://en.wikipedia.org'+row.get('href'))
参考として:
3.1 [<Element div at 0x1109f7f00>]
3.2 [<Element table at 0x1109f7f00>]
3.3 []
3.4 []
3.5 []