1

Scrapy を使用して Web サイトを解析する必要があります。html ページのパターンは次のとおりです。

div クラス="nameinfo"
     divクラス="namesub"
           span class="namesub">/span>
           span class="info">タイプ 1 のデータ/span>
     /div
     divクラス="namesub">
          span class="namesub">/span>
          span class="info">タイプ 2 のデータ/span>
    /div>
divクラス="namesub"> span class="namesub">/span> span class="info">タイプ 3 のデータ/span>> /div> /div
上記のように、3 種類のデータがあります。どうすれば必要なデータを取得できますか。それらはすべて、クラス属性「namesub」を持つ div 内のスパン要素にあります。前もって感謝します :)

4

1 に答える 1

3

スパイダーの中に入れるべきものは次のとおりです。

hxs = HtmlXPathSelector(response)

namesubs = hxs.select("//div[@class='namesub']")
for namesub in namesubs:
    item = MyItem()
    item["info"] = namesub.select('.//span[@class="info"]/text()').extract()[0]

    yield item

MyItemこのコードは、項目クラスをinfoフィールドで定義していることを前提としています。

それが役立つことを願っています。

于 2013-07-09T13:23:13.483 に答える