JSoup を使用して Java で Google Scholar 用の Web スクレイパーを作成しました。スクレーパーは Scholar で DOI を検索し、この論文の引用を見つけます。このデータは研究に必要です。
ただし、スクレーパーは最初のリクエストに対してのみ機能します。.. その後、スクレーパーは Scholar サイトでキャプチャに遭遇します。
ただし、ブラウザ (Chrome) で Web サイトを開くと、Google Scholar は正常に開きます。
これはどのように可能ですか?すべてのリクエストは同じ IP アドレスから来ています。これまでのところ、次のオプションを試しました。
- リクエストに対してランダムなユーザー エージェントを選択します (5 つのユーザー エージェントのリストから)
- リクエスト間の 5 ~ 50 秒のランダムな遅延
- TOR プロキシを使用します。ただし、ほとんどすべてのエンドノードはすでに Google によってブロックされています
Chrome から Scholar へのリクエストを分析すると、一部のセッション ID で Cookie が使用されていることがわかります。おそらくこれが、Chrome リクエストがブロックされない理由です。この Cookie を JSoup でのリクエストに使用することはできますか?
ありがとうございました!