lxml
PythonでWebページをスクレイプします。ただし、テーブル行の数を取得するには、最初にすべてを取得してから、len()
関数を使用します。無駄だと思いますが、さらにスクレイピングするためにそれらの番号(動的な番号)を取得する他の方法はありますか?
import lxml.html
doc = ''
try:
doc = lxml.html.parse('url')
except SkipException: pass
if doc:
buf = ''
#get the total number of rows in table
tr = doc.xpath("/html/body/div[1]/div[1]/table[1]/tbody/tr")
table = []
# iterate over the table rows limited to max number
for i in range(3, len(tr)):
# get the rows content
table += doc.xpath("body/div[1]/div[1]/table[1]/tbody/tr[%s]/td" % i)