問題タブ [google-scholar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1403 参照

python - urlopen で Google 検索ページをダウンロードできるのに、Google Scholar 検索ページをダウンロードできないのはなぜですか?

Python 3.2.3 の モジュールを使用してGoogle 検索結果をダウンロードしていますが、Google 検索結果へのリンクでは機能するが、Google Scholar では機能しないurllib.requestという奇妙なエラーが発生します。urlopenこの例では、 を検索してい"JOHN SMITH"ます。このコードは、HTML を正常に出力します。

しかし、このコードは、Google Scholar に対して同じことを行っているため、URLError例外が発生します。

トレースバック:

Chrome で検索し、そこからリンクをコピーして、これらのリンクを取得しました。1 人のコメンターが 403 エラーを報告しましたが、これは私もときどき発生します。これは、Google が Scholar のスクレイピングをサポートしていないためだと思われます。ただし、ほとんどの場合、ユーザー エージェント文字列を変更しても、この問題または元の問題は解決されませんURLErrors。  

0 投票する
7 に答える
25701 参照

python - Python(またはR)を使用してGoogleScholarの結果を抽出する

Pythonを使用してGoogleScholarの検索結果を取得したいと思います。それを行うための2つの異なるスクリプトを見つけました。1つはgscholar.pyで、もう1つはですscholar.py(1つはPythonライブラリとして使用できますか?)。

さて、私はPythonにまったく慣れていないので、明らかなことを見逃してしまったらごめんなさい!

問題はgscholar.py、READMEファイルで説明されているように使用すると、結果として得られることです。

query() takes at least 2 arguments (1 given)

別の引数を指定しても(たとえばgscholar.query("my query", allresults=True)

query() takes at least 2 arguments (2 given)

これは私を困惑させます。また、3番目の可能な引数(outformat=4;はBibTex形式)を指定しようとしましたが、これにより関数エラーのリストが表示されます。同僚から、クエリを実行する前にBeautifulSoupとこれをインポートするようにアドバイスされましたが、それでも問題は変わりません。問題を解決する方法について何か提案はありますか?

解決策としてRのコード(リンクを参照)を見つけましたが、すぐにgoogleによってブロックされました。たぶん誰かがブロックされないようにそのコードをどのように改善するかを提案することができますか?どんな助けでもいただければ幸いです!ありがとう!

0 投票する
2 に答える
2149 参照

bibtex - bibtex データを一括ダウンロードしますか?

Google Scholar またはどこかから bibtex データを一括ダウンロードする方法はありますか?

私はいくつかの GS Scraper を試しました

しかし、どれも bibtex ファイルをダウンロードできません。ファイルを取得するには謎のscisigキーが必要です。

Jabrefも試しました。bibtex ファイルを一括で取得できます。ただし、GS の高度な検索機能はすべて無効になっています。

ご指摘ありがとうございます。

0 投票する
2 に答える
822 参照

python - Google Scholar からテキストを抽出する

Google Scholar が特定のクエリに対して提供するテスト スニペットからテキストを抽出しようとしています。テキスト スニペットとは、タイトルの下のテキスト (黒文字) を意味します。現在、pythonを使用してhtmlファイルから抽出しようとしていますが、次のような多くの余分なテストが含まれています

/div><div class="gs_fl"...等。

これらの冗長なテキストなしでテキストを取得するのに役立つ簡単な方法またはコードはありますか。

0 投票する
1 に答える
2427 参照

java - Java Web スクレイパーがキャプチャを見る

JSoup を使用して Java で Google Scholar 用の Web スクレイパーを作成しました。スクレーパーは Scholar で DOI を検索し、この論文の引用を見つけます。このデータは研究に必要です。

ただし、スクレーパーは最初のリクエストに対してのみ機能します。.. その後、スクレーパーは Scholar サイトでキャプチャに遭遇します。

ただし、ブラウザ (Chrome) で Web サイトを開くと、Google Scholar は正常に開きます。

これはどのように可能ですか?すべてのリクエストは同じ IP アドレスから来ています。これまでのところ、次のオプションを試しました。

  • リクエストに対してランダムなユーザー エージェントを選択します (5 つのユーザー エージェントのリストから)
  • リクエスト間の 5 ~ 50 秒のランダムな遅延
  • TOR プロキシを使用します。ただし、ほとんどすべてのエンドノードはすでに Google によってブロックされています

Chrome から Scholar へのリクエストを分析すると、一部のセッション ID で Cookie が使用されていることがわかります。おそらくこれが、Chrome リクエストがブロックされない理由です。この Cookie を JSoup でのリクエストに使用することはできますか?

ありがとうございました!

0 投票する
0 に答える
471 参照

python - Errno 11004 getaddrinfofialed は urllib2 を使用しているが、httplib を使用していない

私は python が初めてで、scholate.py と TOR を使用して Google Scholarスクレーパーを構築しようとしています。残念ながら、以下のコードを実行すると:

すべて問題なく、IP アドレスが返されます。ただし、ドロップした場合:

そしてそれを

「URLError urlopen error [Errno 11004] getaddrinfo failed.」というエラー メッセージが表示されます。

Scholar.py は urllib2 を使用しているため、動作させる必要があります。どんな考えでも大歓迎です。

0 投票する
0 に答える
226 参照

python - bibtex ライブラリを新しい Google Scholar ライブラリと同期

ローカルの bibtex ファイルを Google Scholar の新しい「マイ ライブラリ」と同期する簡単な方法はありますか? つまり、リストの各エントリをエクスポートせずに、学者ライブラリから bibtex ファイルを生成する方法を探しています。

0 投票する
1 に答える
548 参照

google-scholar - Google Scholar の論文を引用しているすべての論文を取得する方法

特定の論文を引用しているすべての論文を検索したい (たとえば、ランダムグラフでは 4531 回引用されている)

具体的に
は、解析できるすべての論文のタイトルと引用番号が必要ですが、すべての結果 html を取得する方法がわかりません。Google は 1 ページに 10 論文しか表示しないからです。そのため、すべての結果ページをダウンロードする方法が必要です。