2

Beautiful Soup 4.0 を使用して HTML ドキュメントを解析しています。

これはドキュメント内のテーブルの例です

<tr>
<td class="nob"></td>
<td class="">Time of price</td>
<td class=" pullElement pullData-DE000BWB14W0.teFull">08/06/2012</td>
<td class=" pullElement pullData-DE000BWB14W0.PriceTimeFull">11:43:08&nbsp;</td>
<td class="nob"></td>
</tr>
<tr>
<td class="nob"></td>
<td class="">Daily volume (units)</td>
<td colspan="2" class=" pullElement pullData-DE000BWB14W0.EWXlume">0</td>
                <td class="nob"></td>
<t/r>

2012 年 8 月 6 日と 11:43:08 の毎日の出来高、0 などを抽出したいと思います。

これは、特定のテーブルとそのすべてのデータを見つけるための私のコードです

html = file("some_file.html")
soup = BeautifulSoup(html)
t = soup.find(id="ctnt-2308")
dat = [ map(str, row.findAll("td")) for row in t.findAll("tr") ]

整理する必要があるデータのリストを取得します

簡単な方法でそれを行うための提案はありますか??

ありがとうございました

4

1 に答える 1

1
list(soup.stripped_strings)

そのスープのすべての文字列を提供します(すべての末尾のスペースを削除します)

于 2012-09-25T11:03:38.367 に答える