0

私は再び奇妙な問題を抱えています:

特定のサイトにインデックスを付けるためのクローラーを作成しています。数週間は問題なく動作し、1時間に送信するリクエストが多すぎる場合にのみ問題が発生しました。

しかし、今では1つのページにさえアクセスできません。

しかし、さらに奇妙なことに、POSTを介していくつかのフォーム値を送信する必要がありますが、サーバーは404エラーを返します-URLは間違いなく正しいですが。

私は、ボットとして認識される蜂を防ぐために多くの手法を実装しました。ユーザーエージェントの変更、遅延、そしてフォームが自分のWebサイトから送信されたふりをするためにリファラーヘッダーを送信します。

これもまた、サーバーのスパムまたはDDOS保護である可能性がありますか?または、他に考えられるエラーの原因はありますか?

4

2 に答える 2

0

さて、それを解決しました。

リモートサーバーの非常に奇妙な動作が問題を引き起こしました。予想よりも多くのパラメーターを送信すると、不要なパラメーターを無視する代わりに404が返されました。

于 2012-06-11T15:28:58.190 に答える
0

Be certain your URL doesn't have any extra data.

This:

curl_setopt($ch, CURLOPT_URL, 'http://www.aspsite.com/');

Becomes (Notice the backslash removed):

curl_setopt($ch, CURLOPT_URL, 'http://www.aspsite.com');

If you are intending to use GET data, make sure your ASP file requests EXACTLY the data you send over.

于 2013-11-14T22:27:30.393 に答える