3

の ResultSet からすべての HTML タグを取り除こうとしていますsoup.html.body.findAll('td', {'class':'yfnc_h'})

現在、ResultSet にはネストされた<a href><td>、およびその他のタグが含まれている場合があります。ResultSet(スープオブジェクトではない)に作用する私が見つけた唯一の半解決策はRSelement.string

ただし、.string複数のネストされたタグを持つ入力を処理することはできません。

入力:<td class="yfnc_h" align="right">53.50</td>

出力: 53.50

入力:<td class="yfnc_h" align="right"><b>51.97</b></td>

出力:None

入力:<td class="yfnc_h" align="right"><span id="yfs_c10_djx131116c00100000"> <b style="color:#000000;">0.00</b></span></td>

出力: なし

ResultSet 出力からすべてのタグを削除するにはどうすればよいですか?

4

1 に答える 1

3

.text代わりに次の属性を使用してください。

print RSelement.text
于 2013-10-31T05:14:23.083 に答える