1

最近、Pythonライブラリmechanizeを発見しました。これを使用して、Google検索からリンクを取得したいのですが、出力を理解できません。これが私のコードスニペットです:

import mechanize, cookielib
br = mechanize.Browser()
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
br.set_handle_robots(False)
url = 'https://www.google.com/search?num=10&hl=en&site=&q=dog&oq=dog&aq=f&aqi=g10&aql=1&gs_sm=e'

response = br.open(url)

links = [link for link in br.links()]

これは正しく実行されますが、出力は次のようになります。

[
Link(base_url='https://www.google.com/search?num=10&hl=en&site=&q=dog&oq=dog&aq=f&aqi=g10&aql=1&gs_sm=e', url='/support/websearch/bin/answer.py?answer=186645&form=bb&hl=en', text='Learn more', tag='a', attrs=[('href', '/support/websearch/bin/answer.py?answer=186645&form=bb&hl=en')]),
Link(base_url='https://www.google.com/search?num=10&hl=en&site=&q=dog&oq=dog&aq=f&aqi=g10&aql=1&gs_sm=e', url='http://www.google.com/intl/en/options/', text='More', tag='a', attrs=[('class', 'gbgt'), ('id', 'gbztm'), ('href', 'http://www.google.com/intl/en/options/'), ('onclick', 'gbar.tg(event,this)'), ('aria-haspopup', 'true'), ('aria-owns', 'gbd')]),
Link(base_url='https://www.google.com/search?num=10&hl=en&site=&q=dog&oq=dog&aq=f&aqi=g10&aql=1&gs_sm=e', url='/webhp?hl=en&tab=ww', text='', tag='a', attrs=[('href', '/webhp?hl=en&tab=ww'), ('onclick', 'gbar.logger.il(39)'), ('title', 'Go to Google Home')]),
...,
]

この「クリックミー」スタイルの応答の代わりに、実際のURLを取得するにはどうすればよいですか?

ありがとう!

4

1 に答える 1

2

ページ上のすべてのリンクを取得しているので、関連する検索結果のリンクだけに絞り込む必要があります。私はこれがあなたが望むことをするだろうと思います:

links = [link for link in br.links() if any(attr==('class','l') for attr in link.attrs)]

メインの検索結果のリンクはすべてclass=l、属性として持っているように見えます。私はあなたが電話mechanizeでこれを行うことができるかどうかを知るのに十分な知識がありません。links()

于 2012-09-12T06:49:29.227 に答える