-1

特定の情報を求めてWebをクロールするために80legsを使用しています。必要な情報は、正規表現を使用して80legsで指定されています。したがって、たとえば、URLリストの画像を解析する必要がある場合は、を指定します<img.*?>

ここで、クラス「rellinkrelarticlemainarticle」を持つdiv内のアンカーも取得する必要があります。例えば:

<div class="rellink relarticle mainarticle">Main articles: <a href="/wiki/Theophrastus"   title="Theophrastus">Theophrastus</a> and <a href="/wiki/Historia_Plantarum" title="Historia Plantarum">Historia Plantarum</a></div>

追加してみました

<div class="rellink relarticle mainarticle">.*?<a.*?>

ただし、複数ある場合でも、div内の最初のアンカーを取得するだけです。このコードを変更して、div内のすべてのアンカーを取得することは可能ですか?

4

1 に答える 1

1

<div class="rellink relarticle mainarticle">.*?<a.*?>divの開始タグに一致し、その後に任意の数の文字が続き、その後にアンカーが続きます。だから使用する

<div class="rellink relarticle mainarticle">.*?(<a.*?>)+

代わりは。

于 2013-02-28T12:30:36.200 に答える