0

HTML コードの解析には HTMLParser ライブラリを使用します。handle_starttag メソッドをオーバーライドすると、「ルート」要素を持つフラグメントのみが取得されます。テーブルからいくつかのリンクを抽出する必要があります。HTML文字列を分割してフラグメントを解析しようとしましたが、結果は同じです。次のフラグメントを解析しようとすると:

<td class="lineItemMainInfo" width="100%">
      <div class="lineItemGroup">
        <div><span class="small productTitle"><strong>
     <a rel="nofollow" href="/dp/B007R5YFS4/ref=wl_fv/191-7812654-8275300?_encoding=UTF8&colid=1VII2NY76H4UZ&coliid=I17H6RZSYMY3L1">
       Amazon Kindle Paperwhite Leather Cover, Onyx Black (does not fit Kindle or Kindle Touch)


          </a> 
        </strong></span></div>
        <div class=lineItemPart style="margin-top: 40px;"><span class=wlPriceBold>$39.99</span></div>
        <div style="margin-top: 40px;"><a href="/gp/item-dispatch/ref=cm_wl_addtocart_v/191-7812654-8275300?ie=UTF8&amp;colid=1VII2NY76H4UZ&amp;coliid=I17H6RZSYMY3L1&amp;offeringID.1=XPVNq%252BOcYJUJX1KIbumcWx6ws9PGgJa3gAVhZKZdE0ZWN%252FAq6rL2CoBnw4sUpGte0oDqJjGH15dpME1xUYMI1yg%252BO5y7fw2cpA7RmRZJHNIZw09fS2l4OQ%253D%253D&amp;quantity.1=1&amp;registryID.1=1VII2NY76H4UZ&amp;registryItemID.1=I17H6RZSYMY3L1&amp;session-id=191-7812654-8275300&amp;signInToHUC=0&amp;submit.addToCart=1"><span class="swSprite s_add2CartSm " border="0" vspace="0" hspace="0"style="vertical-align:middle;margin-bottom:2px;" alt="Add to Cart"></span></a></div>
       </div>

    </td>

ネストされたタグなしで td タグのみを受け取ります。誰もこの問題を抱えていましたか?

4

1 に答える 1

0

HTMLParser - BeautifulSoupの代わりを謙虚に提案できますか? 問題を非常に迅速に解決するのに役立つと確信しています。

于 2013-04-28T16:51:00.477 に答える