1

urllib2 を使用してサイトからいくつかのデータをフェッチしようとしていますが、ソースの表示をクリックしたときに表示されるものとは異なる HTML ページが表示されます (一部の要素が div で交換され、一部の要素が div に完全に存在しないなど)。

例: この python スクリプトを試してください

import urllib2

markup = urllib2.urlopen("http://www.ebay.com/sch/i.html?_trksid=p5197.m570.l1313&_nkw=harry+potter&_sacat=0&_from=R40").read()

上記のいくつかのサンプルタグは(これは間違っています、これはページにデータが表示される方法ではありません、firebugでもチェックしました)

<div class="catsgroup">
    <div class="cat-t"><a href="http://www.ebay.com/sch/Books-/267/i.html?_from=R40&amp;_nkw=harry+potter">Books</a><span class="cnt">&nbsp;(7,777)</span></div>
    <div class="cat-c">
        <div class="default">
            <div class="cat-link"><a href="http://www.ebay.com/sch/Children-Young-Adults-/279/i.html?_from=R40&amp;_nkw=harry+potter">Children &amp; Young Adults</a><span class="cnt">&nbsp;(1,999)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Nonfiction-/378/i.html?_from=R40&amp;_nkw=harry+potter">Nonfiction</a><span class="cnt">&nbsp;(2,414)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Fiction-Literature-/377/i.html?_from=R40&amp;_nkw=harry+potter">Fiction &amp; Literature</a><span class="cnt">&nbsp;(1,461)</span></div> 
            **<div class="cat-link"><a href="http://www.ebay.com/sch/Antiquarian-Collectible-/29223/i.html?_from=R40&amp;_nkw=harry+potter">Antiquarian &amp; Collectible</a><span class="cnt">&nbsp;(508)</span></div>**
        </div>
    </div>
</div>

** のある最後の行は、ソース ビューではそのタグに属していませんが、curl/wget/urllib2 では属しています。

ビューソースからの同じスニペット (これは実際にページ上でデータが表示される方法です)

<div class="catsgroup">
    <div class="cat-t"><a href="http://www.ebay.com/sch/Books-/267/i.html?_from=R40&amp;_nkw=harry+potter">Books</a><span class="cnt">&nbsp;(4,358)</span></div>
    <div class="cat-c">
        <div class="default">
            <div class="cat-link"><a href="http://www.ebay.com/sch/Children-Young-Adults-/279/i.html?_from=R40&amp;_nkw=harry+potter">Children &amp; Young Adults</a><span class="cnt">&nbsp;(1,334)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Nonfiction-/378/i.html?_from=R40&amp;_nkw=harry+potter">Nonfiction</a><span class="cnt">&nbsp;(1,298)</span></div> 
            <div class="cat-link"><a href="http://www.ebay.com/sch/Fiction-Literature-/377/i.html?_from=R40&amp;_nkw=harry+potter">Fiction &amp; Literature</a><span class="cnt">&nbsp;(710)</span></div> 
        </div>
    </div>
</div>

ここで何がうまくいかないのか、ビューソースに示されているように正しいhtmlを取得する方法について助けていただければ幸いです。

前もって感謝します

4

0 に答える 0