私は、ジャーナル記事がどのように引用されているかを分析するプロジェクトに取り組んでいます。ジャーナル記事名の大きなファイルがあります。それらを Google Scholar に渡して、それぞれの引用数を確認するつもりです。
これが私が従っている戦略です:
http://www.icir.org/christian/scholar.htmlの「scholar.py」を使用します。これは、Google Scholar を検索し、最初にヒットした情報 (引用数を含む) を CSV 形式で返す、事前に作成された Python スクリプトです。
Google Scholar は、一定数の検索後にあなたをブロックします (クエリする記事のタイトルは約 3000 あります)。この問題を解決するために、ほとんどの人が Tor ( Tor を介して urllib2 リクエストを Python で作成する方法は?およびカスタム Web クローラーがブロックされないようにする方法) を使用していることがわかりました。Tor は、数分ごとにランダムな IP アドレスを提供するサービスです。
私は Scholar.py と tor の両方を正常にセットアップして動作させています。私は python やライブラリ urllib2 にあまり詳しくありません。クエリが Tor を介してルーティングされるように、scholate.py にどのような変更が必要か疑問に思っています。
大量の Google 学者のクエリに対するより簡単な (そして潜在的にかなり異なる) アプローチが存在する場合は、その提案にも従います。
前もって感謝します