2

大学のデータ視覚化プロジェクトのためにblogger.comからデータを収集するスパイダーを作成しているので、これを尋ねます。

スパイダーは、ブロガーの参照機能で約17,000の値を検索し、適切な基準に一致する場合は(匿名で)特定の値を保存します。

私はスパイダー(PHPで記述)を実行していて、正常に動作しますが、IPをブラックリストに登録したくありません。誰かがエンタープライズサイトと彼らがこのようなものに持っている制限について何か知識を持っていますか?

さらに、制限がある場合、それを回避するために私にできることはありますか?現時点では、問題を少し解決するために私が考えることができるのは、サイトへの呼び出しの間にランダムな遅延(0〜5秒)を追加するか、ランダムなプロキシを介してスクリプトを実行して要求を偽装します。

上記の方法のようなことをしなければならないことで、私は間違ったことをしているように感じます。blogger.comはGoogleが所有しており、主な製品はWebスパイダーであるため、何らかの理由でブロックされた場合はイライラします。とはいえ、彼らのスパイダーは1つのWebサイトだけにリクエストを送信しません。

4

4 に答える 4

10

それらには何らかの制限がある可能性があり、そうです、それらを回避する方法があります(たとえば、ボットファームやランダムプロキシの使用)が、それらのいずれも正確に合法ではなく、技術的にも非常に実現可能ではない可能性があります:)

ブロガーにアクセスしている場合、とにかく、APIキーを使用してログインし、データを直接クエリすることはできませんか?とにかく禁止されている可能性のあるページをスクレイピングするよりも信頼性が高く、トラブルが発生しにくく、リクエストの数が十分に多くなり、気にかけ始めるとトラブルにつながります。Googleは、APIキーごとに許可するトラフィックの量に非常に寛大です。

他のすべてが失敗した場合は、なぜ彼らに電子メールを書いてみませんか。Googleは学術プロジェクトに友好的であるという評判があり、必要に応じてより多くのトラフィックを提供する可能性があります。

于 2009-12-27T18:32:28.137 に答える
3

スパイダーを作成しているので、robots.txtファイルを読み取り、それに応じて実行することを確認してください。また、HTTPのルールの1つは、同じサーバー上に2つを超える同時リクエストを持たないことです。心配しないでください、Googleのサーバーは本当に強力です。一度に1ページしか読んでいない場合、おそらく気付かないでしょう。1秒間隔で注入すると、完全に無害になります。

一方、ボットネットやその他の分散型アプローチを使用すると、DDOS攻撃のように見えるため、有害な動作と見なされます。あなたは本当にその方向に考えるべきではありません。

于 2009-12-27T18:39:35.063 に答える
1

確実に知りたい場合は、blogger.comに電子メールを書いて尋ねてください。

于 2009-12-27T18:34:09.880 に答える
-2

パフォーマンスコストで毎回異なるIPを使用するTORを介してリクエストできます。

于 2009-12-27T18:36:41.670 に答える