TSV形式のデータのWebページをダウンロードしてスクレイピングします。TSV データの周りには、不要な HTML があります。
Web ページの html をダウンロードし、beautifulsoup を使用して必要なデータをかき集めます。ただし、TSV データはメモリに格納されています。
このTSVデータをパンダでメモリ内で使用するにはどうすればよいですか? 私が見つけることができるすべてのメソッドは、既にスクレイピングしたデータからではなく、ファイルまたは URI から読み取りたいようです。
テキストをダウンロードしてファイルに書き込んでから、再スクレイピングしたくありません。
#!/usr/bin/env python2
from pandas import pandas as p
from BeautifulSoup import BeautifulSoup
import urllib2
def main():
url = "URL"
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)
# pre is the tag that the data is within
tab_sepd_vals = soup.pre.string
data = p.LOAD_CSV(tab_sepd_vals)
process(data)