BeautifulSoupを使用して、このデータテーブルの最初と3番目の列を抽出しようとしています。HTMLを見ると、最初の列に<th>
タグが付いています。関心のある他の列には<td>
タグがあります。いずれにせよ、私が得ることができたのは、タグが付いた列のリストだけです。しかし、私はただテキストが欲しいだけです。
table
はすでにリストになっているので使用できませんfindAll(text=True)
。別の形式で最初の列のリストを取得する方法がわかりません。
from BeautifulSoup import BeautifulSoup
from sys import argv
import re
filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one
print table