0

Firefox と GoogleBot のどちらを使用していても、サイトは私をボットとして認識します。

Goutte を使用してクローラーを作成しようとしています。Web サイトにはクローラーのブロック システムがありますが、それを回避する方法がわかりません。これは私の現在のコードです:

require_once 'includes/goutte.phar';
use Goutte\Client;
$client = new Client();
$client->setHeader('User-Agent', "Googlebot");
$crawler = $client->request('GET', 'http://www.example.com');
echo $crawler->filter('')->text();

ご覧のとおり、ユーザー エージェントを変更しました。ユーザー エージェントを記録したローカル ファイルをクロールして、正しく変更されることをテストしました。

それでも、サイトはどういうわけか私をボットとして認識します. 何か案は?

4

2 に答える 2

0

Firefox ブラウザーまたはそのユーザー エージェント文字列だけを使用してみましたか? Firefox ブラウザーを使用していない場合は、それを行い、firebug アドオン (「Net」パネル)、Tamperdata アドオン、または Wireshark などを使用して、正常な応答をもたらす要求の詳細をキャプチャします。

Firefox を使用して正常な応答が得られない場合は、ボットのみをブロックしている可能性は低くなります。

その後、正常な応答をもたらした要求を複製できる場合。

また、「サイトはまだ私をボットとして認識している」とはどういう意味ですか?

于 2013-02-01T22:01:05.163 に答える