HTML Web サイトを読み込んでデータを抽出しようとしています。たとえば、企業の過去 5 年間の EPS (1 株あたりの利益) を読み込んでみたいと思います。基本的に、私はそれを読み込んで、BeautifulSoup または html2text のいずれかを使用して巨大なテキスト ブロックを作成することができます。次に、ファイルを検索したいと思います-私は re.search を使用しています-しかし、それを正しく機能させることができないようです。アクセスしようとしている行は次のとおりです。
EPS (ベーシック)\n13.4620.6226.6930.1732.81\n\n
そこで、EPS = [13.46, 20.62, 26.69, 30.17, 32.81] というリストを作成したいと思います。
助けてくれてありがとう。
from stripogram import html2text
from urllib import urlopen
import re
from BeautifulSoup import BeautifulSoup
ticker_symbol = 'goog'
url = 'http://www.marketwatch.com/investing/stock/'
full_url = url + ticker_symbol + '/financials' #build url
text_soup = BeautifulSoup(urlopen(full_url).read()) #read in
text_parts = text_soup.findAll(text=True)
text = ''.join(text_parts)
eps = re.search("EPS\s+(\d+)", text)
if eps is not None:
print eps.group(1)