XMLを使用してヤフーファイナンスから「セクター」および「産業」フィールドをスクレイピングしようとしています。
href の URL は一貫してhttp://biz.yahoo.com/ic/ xyz .html であることに気付きました。xyzは数字です。
1 桁以上のワイルドカードを含める方法を教えてください。Google およびスタック検索に基づいていくつかの方法を試しましたが、何も機能しませんでした。
import lxml.html
url = 'http://finance.yahoo.com/q?s=AAPL'
root = lxml.html.parse(url).getroot()
for a in root.xpath('//a[@href="http://biz.yahoo.com/ic/' + 3 digit integer wildcard " +'.html"]')
print a.text