python - スクレイピーを使用して同じ div の下で Web サイトを解析する

Question

Scrapy を使用して Web サイトを解析する必要があります。html ページのパターンは次のとおりです。

div クラス="nameinfo"
     divクラス="namesub"
           span class="namesub">/span>
           span class="info">タイプ 1 のデータ/span>
     /div
     divクラス="namesub">
          span class="namesub">/span>
          span class="info">タイプ 2 のデータ/span>
    /div>

     divクラス="namesub">
          span class="namesub">/span>
          span class="info">タイプ 3 のデータ/span>>
    /div>
/div

上記のように、3 種類のデータがあります。どうすれば必要なデータを取得できますか。それらはすべて、クラス属性「namesub」を持つ div 内のスパン要素にあります。前もって感謝します：）

score 3 · Accepted Answer

スパイダーの中に入れるべきものは次のとおりです。

hxs = HtmlXPathSelector(response)

namesubs = hxs.select("//div[@class='namesub']")
for namesub in namesubs:
    item = MyItem()
    item["info"] = namesub.select('.//span[@class="info"]/text()').extract()[0]

    yield item

MyItemこのコードは、項目クラスをinfoフィールドで定義していることを前提としています。

それが役立つことを願っています。

python - スクレイピーを使用して同じ div の下で Web サイトを解析する

1 に答える 1

Related

Reference