0

私は pcre RegExp エンジンを使用しており、次のような文字列があります。

<h3 class="description">Description</h3>   <div class="wrapper">  dddsome string blah blahddssssseeeee <div class="empty"> </div></div> </div>          </div>

正常に動作し、次のような文字列「dddsome string blah blahddssssseeeeee」を取得する正規表現:

<\s*h3\s*class="*.+?"\s*>.*?</\s*h3>.+?<\s*div.+?class\s*="wrapper"\s*>(.+?)<\s*div\s*class="empty">

今、私は div class="aplus" タグではなく、このように見えるほぼ同じパターンの文字列を持っています。このタグが表示されたら、上記の正規表現がすべての文字列と一致しないようにします。

<h3 class="description">Description</h3>   <div class="wrapper">  <div class="aplus">  dddsome string blah blahddssssseeeee <div class="empty"> </div></div> </div> 
4

1 に答える 1

0

これを試して

<div.*>(.*)<div.*>

しかし、より良いWebスクレイピングを簡単に行うには、beautiful-soupを使用してください

于 2017-05-05T11:04:47.823 に答える