0

Mechanizeの学習:ニュースサイトをクロールして、リンクにが含まれているリンクのみをたどりたいと思っています?sid。Mechanizeのドキュメントで多くを見つけることができないようです。

import mechanize
br = mechanize.Browser()
response = br.open("http://www.ksl.com")
target_url = 'http://www.ksl.com/?sid=23201788&nid=711&title=vampire-on-the-loose-in-serbia'

for link in br.links():
    print link.text, link.lurl

それは私が今持っている限りです。?sidMechanizeにKSLのメインページに移動し、URLにリンクを含む各リンクを開いてから、そのURL内でターゲットURLを検索してもらいたいと思います。次に戻って、ページ上のさまざまなリンクの検索を続けます。フロントページの最後に「ページ番号」があり、かなり前に戻っているので、さらにリンクをスキャンするには「次のページ」に移動する必要があります。ストーリーにはターゲットURLが含まれています。

4

1 に答える 1

2

urlparseをチェックしてください。

>>> from urlparse import urlparse
>>> target_url = 'http://www.ksl.com/?sid=23201788&nid=711&title=vampire-on-the-loose-in-serbia'
>>> parsed_url = urlparse(target_url)
>>> parsed_url
ParseResult(scheme='http', netloc='www.ksl.com', path='/', params='', query='sid=23201788&nid=711&title=vampire-on-the-loose-in-serbia', fragment='')
>>> if 'sid=' in parsed_url.query:
...     do_something()
于 2012-12-03T02:00:07.663 に答える