問題タブ [google-scholar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - urlopen で Google 検索ページをダウンロードできるのに、Google Scholar 検索ページをダウンロードできないのはなぜですか?
Python 3.2.3 の モジュールを使用してGoogle 検索結果をダウンロードしていますが、Google 検索結果へのリンクでは機能するが、Google Scholar では機能しないurllib.request
という奇妙なエラーが発生します。urlopen
この例では、 を検索してい"JOHN SMITH"
ます。このコードは、HTML を正常に出力します。
しかし、このコードは、Google Scholar に対して同じことを行っているため、URLError
例外が発生します。
トレースバック:
Chrome で検索し、そこからリンクをコピーして、これらのリンクを取得しました。1 人のコメンターが 403 エラーを報告しましたが、これは私もときどき発生します。これは、Google が Scholar のスクレイピングをサポートしていないためだと思われます。ただし、ほとんどの場合、ユーザー エージェント文字列を変更しても、この問題または元の問題は解決されませんURLErrors
。
python - Python(またはR)を使用してGoogleScholarの結果を抽出する
Pythonを使用してGoogleScholarの検索結果を取得したいと思います。それを行うための2つの異なるスクリプトを見つけました。1つはgscholar.pyで、もう1つはですscholar.py
(1つはPythonライブラリとして使用できますか?)。
さて、私はPythonにまったく慣れていないので、明らかなことを見逃してしまったらごめんなさい!
問題はgscholar.py
、READMEファイルで説明されているように使用すると、結果として得られることです。
query() takes at least 2 arguments (1 given)
。
別の引数を指定しても(たとえばgscholar.query("my query", allresults=True)
、
query() takes at least 2 arguments (2 given)
。
これは私を困惑させます。また、3番目の可能な引数(outformat=4
;はBibTex形式)を指定しようとしましたが、これにより関数エラーのリストが表示されます。同僚から、クエリを実行する前にBeautifulSoupとこれをインポートするようにアドバイスされましたが、それでも問題は変わりません。問題を解決する方法について何か提案はありますか?
解決策としてRのコード(リンクを参照)を見つけましたが、すぐにgoogleによってブロックされました。たぶん誰かがブロックされないようにそのコードをどのように改善するかを提案することができますか?どんな助けでもいただければ幸いです!ありがとう!
bibtex - bibtex データを一括ダウンロードしますか?
Google Scholar またはどこかから bibtex データを一括ダウンロードする方法はありますか?
私はいくつかの GS Scraper を試しました 。
しかし、どれも bibtex ファイルをダウンロードできません。ファイルを取得するには謎のscisigキーが必要です。
Jabrefも試しました。bibtex ファイルを一括で取得できます。ただし、GS の高度な検索機能はすべて無効になっています。
ご指摘ありがとうございます。
python - Google Scholar からテキストを抽出する
Google Scholar が特定のクエリに対して提供するテスト スニペットからテキストを抽出しようとしています。テキスト スニペットとは、タイトルの下のテキスト (黒文字) を意味します。現在、pythonを使用してhtmlファイルから抽出しようとしていますが、次のような多くの余分なテストが含まれています
/div><div class="gs_fl"
...等。
これらの冗長なテキストなしでテキストを取得するのに役立つ簡単な方法またはコードはありますか。
java - Java Web スクレイパーがキャプチャを見る
JSoup を使用して Java で Google Scholar 用の Web スクレイパーを作成しました。スクレーパーは Scholar で DOI を検索し、この論文の引用を見つけます。このデータは研究に必要です。
ただし、スクレーパーは最初のリクエストに対してのみ機能します。.. その後、スクレーパーは Scholar サイトでキャプチャに遭遇します。
ただし、ブラウザ (Chrome) で Web サイトを開くと、Google Scholar は正常に開きます。
これはどのように可能ですか?すべてのリクエストは同じ IP アドレスから来ています。これまでのところ、次のオプションを試しました。
- リクエストに対してランダムなユーザー エージェントを選択します (5 つのユーザー エージェントのリストから)
- リクエスト間の 5 ~ 50 秒のランダムな遅延
- TOR プロキシを使用します。ただし、ほとんどすべてのエンドノードはすでに Google によってブロックされています
Chrome から Scholar へのリクエストを分析すると、一部のセッション ID で Cookie が使用されていることがわかります。おそらくこれが、Chrome リクエストがブロックされない理由です。この Cookie を JSoup でのリクエストに使用することはできますか?
ありがとうございました!
python - Errno 11004 getaddrinfofialed は urllib2 を使用しているが、httplib を使用していない
私は python が初めてで、scholate.py と TOR を使用して Google Scholarスクレーパーを構築しようとしています。残念ながら、以下のコードを実行すると:
すべて問題なく、IP アドレスが返されます。ただし、ドロップした場合:
そしてそれを
「URLError urlopen error [Errno 11004] getaddrinfo failed.」というエラー メッセージが表示されます。
Scholar.py は urllib2 を使用しているため、動作させる必要があります。どんな考えでも大歓迎です。
python - bibtex ライブラリを新しい Google Scholar ライブラリと同期
ローカルの bibtex ファイルを Google Scholar の新しい「マイ ライブラリ」と同期する簡単な方法はありますか? つまり、リストの各エントリをエクスポートせずに、学者ライブラリから bibtex ファイルを生成する方法を探しています。
google-scholar - Google Scholar の論文を引用しているすべての論文を取得する方法
特定の論文を引用しているすべての論文を検索したい (たとえば、ランダムグラフでは 4531 回引用されている)
具体的に
は、解析できるすべての論文のタイトルと引用番号が必要ですが、すべての結果 html を取得する方法がわかりません。Google は 1 ページに 10 論文しか表示しないからです。そのため、すべての結果ページをダウンロードする方法が必要です。