大学のデータ視覚化プロジェクトのためにblogger.comからデータを収集するスパイダーを作成しているので、これを尋ねます。
スパイダーは、ブロガーの参照機能で約17,000の値を検索し、適切な基準に一致する場合は(匿名で)特定の値を保存します。
私はスパイダー(PHPで記述)を実行していて、正常に動作しますが、IPをブラックリストに登録したくありません。誰かがエンタープライズサイトと彼らがこのようなものに持っている制限について何か知識を持っていますか?
さらに、制限がある場合、それを回避するために私にできることはありますか?現時点では、問題を少し解決するために私が考えることができるのは、サイトへの呼び出しの間にランダムな遅延(0〜5秒)を追加するか、ランダムなプロキシを介してスクリプトを実行して要求を偽装します。
上記の方法のようなことをしなければならないことで、私は間違ったことをしているように感じます。blogger.comはGoogleが所有しており、主な製品はWebスパイダーであるため、何らかの理由でブロックされた場合はイライラします。とはいえ、彼らのスパイダーは1つのWebサイトだけにリクエストを送信しません。