python - selectorgadget.comを使用したHTMLファイルの解析

Question

美しいスープとセレクターガジェットを使用してWebサイトをスクレイプするにはどうすればよいですか。たとえば、私はWebサイト（newegg製品）を持っており、スクリプトでその製品のすべての仕様を返すようにします（[仕様]をクリックします）。つまり、Intel、デスクトップ、......、2.4GHzです。、1066Mhz、......、3年間限定。

セレクターガジェットを使用した後、文字列.descを取得します

これはどのように使用しますか？

ありがとう：）

score 1 · Accepted Answer

ページを調べると、仕様が ID pcraSpecs の div に配置されていることがわかります。

<div id="pcraSpecs">
  <script type="text/javascript">...</script>
  <TABLE cellpadding="0" cellspacing="0" class="specification">
    <TR>
      <TD colspan="2" class="title">Model</TD>
    </TR>
    <TR>
      <TD class="name">Brand</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
    </TR>
    <TR>
      <TD class="name">Processors Type</TD>
      <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>    
    </TR>
    ...
  </TABLE>
</div>

desc はテーブルセルのクラスです。

あなたがしたいことは、このテーブルの内容を抽出することです。

soup.find(id="pcraSpecs").findAll("td")始める必要があります。

score 0 · Accepted Answer

任意の Web ページからカスタム RSS フィードを作成するために、Feedity - http://feedity.comを使用してみましたか。

python - selectorgadget.comを使用したHTMLファイルの解析

2 に答える 2

Related

Reference