python - クロールのための Google Scholar ブロックの回避

Question

次の Python スクリプトを使用して、Python から Google Scholar をクロールしました。

import urllib

filehandle = urllib.urlopen('http://www.techyupdates.blogspot.com')

for lines in filehandle.readlines():
   print lines

filehandle.close()

しかし、私はそれを繰り返し行っているため、サイトのグーグル学者が次のように言ってブロックされています:

このページは、利用規約に違反していると思われるコンピュータネットワークからのリクエストを Google が自動的に検出した場合に表示されます。これらのリクエストが停止するとすぐに、ブロックは期限切れになります。その間、解決....

これを回避する簡単な方法はありますか？助言がありますか？

score 4 · Accepted Answer

[編集]

スクリプトになんらかの調整を加えて、Google Scholar の読み込みを軽くします (たとえば、クエリ間で 60 秒、600 秒、または 6000 秒待機します)。

つまり、 Google Scholarを軽くロードするということです。Google Scholar の結果をキャッシュできる場合は、Google Scholar の負荷も軽減されます。

バッチ処理についても検討する必要があります。これにより、クロールを安定した低速で夜間に実行できます。

目標は、Google Scholar が追加のクエリを気にしないようにすることです。これにより、レターではないにしても、ToS の精神を満たします。しかし、両方を満たすことができれば、それは正しいことです。

score 1 · Accepted Answer

ファイルをローカルに保存しますか? HTTP 接続が必要な場合に備えて、ファイルを提供する簡単な Python Web サーバーを作成することもできます。はい、同意します。エラーメッセージを読んで理解しようとすることも役立ちます...

python - クロールのための Google Scholar ブロックの回避

2 に答える 2

Related

Reference