php - Goutte、サイトはどうやって私がロボットだとわかるの?

Question

Firefox と GoogleBot のどちらを使用していても、サイトは私をボットとして認識します。

Goutte を使用してクローラーを作成しようとしています。Web サイトにはクローラーのブロックシステムがありますが、それを回避する方法がわかりません。これは私の現在のコードです:

require_once 'includes/goutte.phar';
use Goutte\Client;
$client = new Client();
$client->setHeader('User-Agent', "Googlebot");
$crawler = $client->request('GET', 'http://www.example.com');
echo $crawler->filter('')->text();

ご覧のとおり、ユーザーエージェントを変更しました。ユーザーエージェントを記録したローカルファイルをクロールして、正しく変更されることをテストしました。

それでも、サイトはどういうわけか私をボットとして認識します. 何か案は？

score 0 · Accepted Answer

Firefox ブラウザーまたはそのユーザーエージェント文字列だけを使用してみましたか? Firefox ブラウザーを使用していない場合は、それを行い、firebug アドオン (「Net」パネル)、Tamperdata アドオン、または Wireshark などを使用して、正常な応答をもたらす要求の詳細をキャプチャします。

Firefox を使用して正常な応答が得られない場合は、ボットのみをブロックしている可能性は低くなります。

その後、正常な応答をもたらした要求を複製できる場合。

また、「サイトはまだ私をボットとして認識している」とはどういう意味ですか?

php - Goutte、サイトはどうやって私がロボットだとわかるの?

2 に答える 2

Related

Reference