0

URL http://www.smartmoney.com/quote/FAST/?story=financials&timewindow=1&opt=YB&isFinprint=1&framework.view=smi_emptyViewを前提として、データの行全体のコンテンツをどのようにキャプチャして印刷しますか?

たとえば、「Cash&Short Term Investments 144,841 169,760 189,252 86,743 57,379」のような出力を取得するには、何が必要でしょうか。または、「不動産、プラント、設備-総計725,104 632,332 571,467 538,805 465,493」のようなものですか?

私はサイトhttp://www.techchorus.net/web-scraping-lxmlを通じてXpathの基本を紹介しました。ただし、Xpath構文はまだ私にはほとんど謎です。

私はすでにBeautifulSoupでこれを成功させました。BeautifulSoupではファイルの構造を知る必要がないという事実が気に入っています。検索するテキストを含む要素を検索するだけです。残念ながら、BeautifulSoupは、これを何千回も実行しなければならないスクリプトには遅すぎます。BeautifulSoupでの私のタスクのソースコードは次のとおりです(title_inputは "Cash&Short Term Investments"と同じです):

    page = urllib2.urlopen (url_local)
    soup = BeautifulSoup (page)
    soup_line_item = soup.findAll(text=title_input)[0].parent.parent.parent
    list_output = soup_line_item.findAll('td') # List of elements

では、lxmlの同等のコードは何でしょうか?

編集1:私が最初に投稿したときにURLが隠されていました。私は今それを修正しました。

編集2:私がやろうとしていることを明確にするためにBeautifulSoupベースのソリューションを追加しました。

編集3:ソリューションのルートに+10。同じ質問を持つ将来の開発者の利益のために、私はここに私のために働いた簡単で汚いスクリプトを投稿しています:

    #!/usr/bin/env python
    import urllib
    import lxml.html

    url = 'balancesheet.html'

    result = urllib.urlopen(url)
    html = result.read()


    doc = lxml.html.document_fromstring(html)
    x = doc.xpath(u'.//th[div[text()="Cash & Short Term Investments"]]/following-sibling::td/text()')
    print x
4

2 に答える 2

1
In [18]: doc.xpath(u'.//th[div[text()="Cash & Short Term Investments"]]/following-sibling::td/text()')
Out[18]: ['   144,841', '   169,760', '   189,252', '    86,743', '    57,379']

または、テキストで行を取得するための小さな関数を定義できます。

In [19]: def func(doc,txt):
    ...:     exp=u'.//th[div[text()="{0}"]]'\
    ...:         u'/following-sibling::td/text()'.format(txt)
    ...:     return [i.strip() for i in doc.xpath(exp)]

In [20]: func(doc,u'Total Accounts Receivable')
Out[20]: ['338,594', '270,133', '214,169', '244,940', '236,331']

dictまたは、すべての行を:に取得できます。

In [21]: d={}

In [22]: for i in doc.xpath(u'.//tbody/tr'):
    ...:     if len(i.xpath(u'.//th/div/text()')):
    ...:         d[i.xpath(u'.//th/div/text()')[0]]=\
    ...:         [e.strip() for e in i.xpath(u'.//td/text()')]

In [23]: d.items()[:3]
Out[23]: 
[('Accounts Receivables, Gross',
     ['344,241', '274,894', '218,255', '247,600', '238,596']),
 ('Short-Term Investments', 
     ['27,165', '26,067', '24,400', '851', '159']),
 ('Cash & Short Term Investments',
     ['144,841', '169,760', '189,252', '86,743', '57,379'])] 
于 2012-11-29T08:25:35.187 に答える
0

htmlがhtmlソースコードを保持するようにします。

import lxm.html
doc = lxml.html.document_fromstring(html)
rows_element = doc.xpath('/html/body/div/div[2]/div/div[5]/div/div/table/tbody/tr')
for row in rows_element:
     print row.text_content()

テストされていませんが、動作するはずです

PSInstallxpathchekerまたはfirefinderをfirefoxにインストールしてxpathを支援します

于 2012-11-29T08:48:56.850 に答える