0

複数のタグを含む複数行のタグを抽出する際に助けが必要..例のように:

<div class="box_update_userdetails_upate">50% discount 4 our members for the items that r put 4 sale.<br />
Send<br />
Join 4sale<br />
9219592195</div>

<div class="box_update_userdetails_upate">Big Offr 4 Our Grp MemBrs:<br />
Jst Add Ur 5 Frns and Gain a Recharge Of 20rs In ur Mob no.<br />
Details<br />
9496360235<br />
addfrn</div>

データには多数
または改行が含まれる場合があります。<div class="box_update_userdetails_upate">の間に書かれたものを</div>すべて抽出する必要があります。<br /><br />

私は使ってみ"<div class="box_update_userdetails_upate">(.+?)</div>"ましたが、それはすべてうまくいきません。その方法は、間に改行または改行タグがない場合にのみ機能します..

4

2 に答える 2

0

ここで有名な回答を参照するには、正規表現を使用してhtmlを解析するのは悪いことです。

def extract(starttag, endtag, text):
    ret = re.compile(r'{a}(.*){b}'.format(a=starttag,b=endtag), re.IGNORECASE).search(text).group(1)
    return ret

this should handle multiple div tags, however it will include the next instance of the div tag in the output, but a simple replace would take care of that

于 2013-09-13T05:13:50.843 に答える