PythonWebスクレイピングに関する情報を探しています。この時刻表からすべてのデータを取得しようとしています。クラスをその時刻にリンクさせたいと思います。HTMLを見ると、複数のテーブル(テーブル内のテーブル)があります。PythonでGoogleAppEngineを使用することを計画しています(おそらくBeautifulSoupも)。これを実行するための最良の方法に関する提案はありますか?
ありがとう
アップデート:
次のコードを使用して、テーブルから必要なデータを抽出することができました。
import urllib
from lxml import etree
import StringIO
url = "http://ttcache.dcu.ie/Reporting/Individual;Locations;id;lg25?
template=location+Individual&weeks=20&days=1-5&periods=1-30&Width=0&Height=0"
result = urllib.urlopen(url)
html = result.read()
parser = etree.HTMLParser()
tree = etree.parse(StringIO.StringIO(html), parser)
xpath = "//table[2]/tr/td//text()"
filtered_html = tree.xpath(xpath)
print filtered_html
しかし、これらのu'\xa0', u'\xa0', '\r\n', '\r\n'
文字の多くが解析されたテキスト全体に散らばっています。これらと戦う方法について何か提案はありますか?
ありがとう