0

親愛なる皆様、私は今webtoolを使用しています

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

ウェブページを解析します。

たとえば、newyorktimes のホームページを解析するには、次のようにします。

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

ブラウザのアドレスバーで、物事をうまく解析してくれます。

ただし、Googleページでは失敗します。たとえば、次のように Google ニュースのヘッドページを解析したい場合:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

常に 500 内部サーバー エラーが発生します。

私はそれがグーグルのウェブサイトと関係があると確信しています.おそらくグーグル用のAPIが必要だと思います.グーグルページのためにこれを整理する方法を知っている人はいますか? どうもありがとう。

4

1 に答える 1

2

google.com のrobots.txtファイルによると、コンテンツをスクレイピングしないように明示的に要求されています。Google は、機械可読な検索結果のための API を提供していません。ウィジェットや埋め込み戦略を介してコンテンツの表示を制御したいと考えています。

于 2009-12-11T04:00:07.617 に答える