1
onclick="try{appendPropertyPosition(this,'B10016735','9176967671, 9176964646, 8939721171','44-22583703','Dealer','manesh');jsb9onUnloadTracking();jsevt.stopBubble(event);}catch(e){};"

このように、HTML ページには多くのonclick属性があります。

onclickこのコードを使用して上記の属性から

join(re.findall("'([a-zA-Z0-9,\s]*)'", (a['onclick'] if a else '')))

私はこのように値をスクレイピングしています:

B10016735,9176967671, 9176964646, 8939721171,44-22583703,Dealer,manesh

しかし、電話番号を 1 つだけ持ち、残りの 3 つの電話番号を削除したい場合は、次のようになります。

 B10016735,9176967671,Dealer,manesh

アップデート

つまり、次のパターンは HTML ページのすべての行で繰り返されるわけではありません。phoneno が 3 つある行はほとんどなく、2 つある行もほとんどありません。電話番号がゼロの場合もあります。そのため、電話番号の数は異なります。

B10016735,9176967671, 9176964646, 8939721171,44-22583703,ディーラー,manesh

4

2 に答える 2

1
>>> import re
>>> strs = 'B10016735,9176967671, 9176964646, 8939721171,44-22583703,Dealer,manesh'
>>> re.sub(r'([^,]+,[^,]+,)(.*?)([A-Za-z].*)', r'\1\3', strs)
'B10016735,9176967671,Dealer,manesh'
于 2013-09-16T14:04:14.330 に答える