Firefox と GoogleBot のどちらを使用していても、サイトは私をボットとして認識します。
Goutte を使用してクローラーを作成しようとしています。Web サイトにはクローラーのブロック システムがありますが、それを回避する方法がわかりません。これは私の現在のコードです:
require_once 'includes/goutte.phar';
use Goutte\Client;
$client = new Client();
$client->setHeader('User-Agent', "Googlebot");
$crawler = $client->request('GET', 'http://www.example.com');
echo $crawler->filter('')->text();
ご覧のとおり、ユーザー エージェントを変更しました。ユーザー エージェントを記録したローカル ファイルをクロールして、正しく変更されることをテストしました。
それでも、サイトはどういうわけか私をボットとして認識します. 何か案は?