python - 機械化：URL内の特定の要素を持つリンクのみをたどる

Question

Mechanizeの学習：ニュースサイトをクロールして、リンクにが含まれているリンクのみをたどりたいと思っています?sid。Mechanizeのドキュメントで多くを見つけることができないようです。

import mechanize
br = mechanize.Browser()
response = br.open("http://www.ksl.com")
target_url = 'http://www.ksl.com/?sid=23201788&nid=711&title=vampire-on-the-loose-in-serbia'

for link in br.links():
    print link.text, link.lurl

それは私が今持っている限りです。?sidMechanizeにKSLのメインページに移動し、URLにリンクを含む各リンクを開いてから、そのURL内でターゲットURLを検索してもらいたいと思います。次に戻って、ページ上のさまざまなリンクの検索を続けます。フロントページの最後に「ページ番号」があり、かなり前に戻っているので、さらにリンクをスキャンするには「次のページ」に移動する必要があります。ストーリーにはターゲットURLが含まれています。

score 2 · Accepted Answer

urlparseをチェックしてください。

>>> from urlparse import urlparse
>>> target_url = 'http://www.ksl.com/?sid=23201788&nid=711&title=vampire-on-the-loose-in-serbia'
>>> parsed_url = urlparse(target_url)
>>> parsed_url
ParseResult(scheme='http', netloc='www.ksl.com', path='/', params='', query='sid=23201788&nid=711&title=vampire-on-the-loose-in-serbia', fragment='')
>>> if 'sid=' in parsed_url.query:
...     do_something()

python - 機械化：URL内の特定の要素を持つリンクのみをたどる

1 に答える 1

Related

Reference