私はウォンバットでクローラーを書いています。そしてどういうわけか私はXPATHではなくCSSセレクターを使用しています。そして、私はここで非常に難しい選択をしています-cssを使用して達成することはできません。
ページから取得したいdiv要素があります:
<div class="do_cat_ads_box"> ... </div>
<div class="do_cat_ads_box2"> ... </div>
<div class="do_cat_ads_box" style=".."> ...</div>
<div class="do_cat_ads_box2" style=".."> ... </div>
しかし、「style」属性を持つ要素は、私が必要としないゴミ(広告)です。
だから私の質問は、クラス'do_cat_ads_box'と'do_cat_ads_box2'を持つすべてのdiv要素を取得できますが、'style'属性を持つdiv要素は避けますか?
私はこのようなものになってしまい、それは機能していません:
application 'css=div.do_cat_ads_box2, div.do_cat_ads_box, div.do_cat_ads_box:not(@style)', :iterator do
href 'css=div.do_cat_ads_image a @href'
name 'css=div.do_cat_ads_detail a'
end
cssセレクターで2倍にならない場合は、常にxpathの方法があります。しかし、私はcss-selectorsアプローチに非常に興味があります。