python - urlopen で Google 検索ページをダウンロードできるのに、Google Scholar 検索ページをダウンロードできないのはなぜですか?

Question

Python 3.2.3 の モジュールを使用してGoogle 検索結果をダウンロードしていますが、Google 検索結果へのリンクでは機能するが、Google Scholar では機能しないurllib.requestという奇妙なエラーが発生します。urlopenこの例では、を検索してい"JOHN SMITH"ます。このコードは、HTML を正常に出力します。

from urllib.request import urlopen, Request
from urllib.error import URLError

# Google
try:
    page_google = '''http://www.google.com/#hl=en&sclient=psy-ab&q=%22JOHN+SMITH%22&oq=%22JOHN+SMITH%22&gs_l=hp.3..0l4.129.2348.0.2492.12.10.0.0.0.0.154.890.6j3.9.0...0.0...1c.gjDBcVcGXaw&pbx=1&bav=on.2,or.r_gc.r_pw.r_qf.,cf.osb&fp=dffb3b4a4179ca7c&biw=1366&bih=649'''
    req_google = Request(page_google)
    req_google.add_header('User Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20120427 Firefox/15.0a1')
    html_google = urlopen(req_google).read()
    print(html_google[0:10])
except URLError as e:
    print(e)

しかし、このコードは、Google Scholar に対して同じことを行っているため、URLError例外が発生します。

from urllib.request import urlopen, Request
from urllib.error import URLError

# Google Scholar
try:
    page_scholar = '''http://scholar.google.com/scholar?hl=en&q=%22JOHN+SMITH%22&btnG=&as_sdt=1%2C14'''
    req_scholar = Request(page_scholar)
    req_scholar.add_header('User Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20120427 Firefox/15.0a1')
    html_scholar = urlopen(req_scholar).read()
    print(html_scholar[0:10])
except URLError as e:
    print(e)

トレースバック:

Traceback (most recent call last):
  File "/home/ak5791/Desktop/code-sandbox/scholar/crawler.py", line 6, in <module>
    html = urlopen(page).read()
  File "/usr/lib/python3.2/urllib/request.py", line 138, in urlopen
    return opener.open(url, data, timeout)
  File "/usr/lib/python3.2/urllib/request.py", line 369, in open
    response = self._open(req, data)
  File "/usr/lib/python3.2/urllib/request.py", line 387, in _open
    '_open', req)
  File "/usr/lib/python3.2/urllib/request.py", line 347, in _call_chain
    result = func(*args)
  File "/usr/lib/python3.2/urllib/request.py", line 1155, in http_open
    return self.do_open(http.client.HTTPConnection, req)
  File "/usr/lib/python3.2/urllib/request.py", line 1138, in do_open
    raise URLError(err)
urllib.error.URLError: <urlopen error [Errno -5] No address associated with hostname>

Chrome で検索し、そこからリンクをコピーして、これらのリンクを取得しました。1 人のコメンターが 403 エラーを報告しましたが、これは私もときどき発生します。これは、Google が Scholar のスクレイピングをサポートしていないためだと思われます。ただし、ほとんどの場合、ユーザーエージェント文字列を変更しても、この問題または元の問題は解決されませんURLErrors。

score 4 · Accepted Answer

この PHP スクリプトは、Google が結果を表示する前にいくつかの Cookie を設定する必要があることを示しているようです。

/*

 Need a cookie file (scholar_cookie.txt) like this:

# Netscape HTTP Cookie File
# http://curlm.haxx.se/rfc/cookie_spec.html
# This file was generated by libcurl! Edit at your own risk.

.scholar.google.com     TRUE    /       FALSE   2147483647      GSP     ID=353e8f974d766dcd:CF=2
.google.com     TRUE    /       FALSE   1317124758      PREF    ID=353e8f974d766dcd:TM=1254052758:LM=1254052758:S=_biVh02e4scrJT1H
.scholar.google.co.uk   TRUE    /       FALSE   2147483647      GSP     ID=f3f18b3b5a7c2647:CF=2
.google.co.uk   TRUE    /       FALSE   1317125123      PREF    ID=f3f18b3b5a7c2647:TM=1254053123:LM=1254053123:S=UqjRcTObh7_sARkN

*/

これは、Google Scholar コメントの Python レシピによって裏付けられています。これには、Google がスクリプトを検出し、スクリプトを頻繁に使用すると無効にするという警告が含まれています。

python - urlopen で Google 検索ページをダウンロードできるのに、Google Scholar 検索ページをダウンロードできないのはなぜですか?

1 に答える 1

Related

Reference