Mechanizeの学習:ニュースサイトをクロールして、リンクにが含まれているリンクのみをたどりたいと思っています?sid
。Mechanizeのドキュメントで多くを見つけることができないようです。
import mechanize
br = mechanize.Browser()
response = br.open("http://www.ksl.com")
target_url = 'http://www.ksl.com/?sid=23201788&nid=711&title=vampire-on-the-loose-in-serbia'
for link in br.links():
print link.text, link.lurl
それは私が今持っている限りです。?sid
MechanizeにKSLのメインページに移動し、URLにリンクを含む各リンクを開いてから、そのURL内でターゲットURLを検索してもらいたいと思います。次に戻って、ページ上のさまざまなリンクの検索を続けます。フロントページの最後に「ページ番号」があり、かなり前に戻っているので、さらにリンクをスキャンするには「次のページ」に移動する必要があります。ストーリーにはターゲットURLが含まれています。