美しいスープとセレクターガジェットを使用してWebサイトをスクレイプするにはどうすればよいですか。たとえば、私はWebサイト(newegg製品)を持っており、スクリプトでその製品のすべての仕様を返すようにします([仕様]をクリックします)。つまり、Intel、デスクトップ、......、2.4GHzです。 、1066Mhz、......、3年間限定。
セレクターガジェットを使用した後、文字列.descを取得します
これはどのように使用しますか?
ありがとう :)
美しいスープとセレクターガジェットを使用してWebサイトをスクレイプするにはどうすればよいですか。たとえば、私はWebサイト(newegg製品)を持っており、スクリプトでその製品のすべての仕様を返すようにします([仕様]をクリックします)。つまり、Intel、デスクトップ、......、2.4GHzです。 、1066Mhz、......、3年間限定。
セレクターガジェットを使用した後、文字列.descを取得します
これはどのように使用しますか?
ありがとう :)
ページを調べると、仕様が ID pcraSpecs の div に配置されていることがわかります。
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
desc はテーブル セルのクラスです。
あなたがしたいことは、このテーブルの内容を抽出することです。
soup.find(id="pcraSpecs").findAll("td")
始める必要があります。
任意の Web ページからカスタム RSS フィードを作成するために、Feedity - http://feedity.comを使用してみましたか。