特定の情報を求めてWebをクロールするために80legsを使用しています。必要な情報は、正規表現を使用して80legsで指定されています。したがって、たとえば、URLリストの画像を解析する必要がある場合は、を指定します<img.*?>
。
ここで、クラス「rellinkrelarticlemainarticle」を持つdiv内のアンカーも取得する必要があります。例えば:
<div class="rellink relarticle mainarticle">Main articles: <a href="/wiki/Theophrastus" title="Theophrastus">Theophrastus</a> and <a href="/wiki/Historia_Plantarum" title="Historia Plantarum">Historia Plantarum</a></div>
追加してみました
<div class="rellink relarticle mainarticle">.*?<a.*?>
ただし、複数ある場合でも、div内の最初のアンカーを取得するだけです。このコードを変更して、div内のすべてのアンカーを取得することは可能ですか?