Symfony2 コンポーネントに基づく PHP Web クローラーであるGoutteを試しています。プレーンテキストと SSL 形式の両方で Google を正常に取得できました。しかし、読み込まれない ASP/SSL ページに遭遇しました。
これが私のコードです:
// Load a crawler/browser system
require_once 'vendor/goutte/goutte.phar';
// Here's a demo of a page we want to parse
$uri = '(removed)';
use Goutte\Client;
$client = new Client();
$crawler = $client->request('GET', $uri);
echo $crawler->text() . "\n";
代わりに、この 1 つのサイトの上記のコードの最後にある echo は、次のようになります。
不正なリクエスト (無効なヘッダー名)
Firefox でサイトを正常に表示でき、wget --no-check-certificate
他のオプション (ヘッダーやユーザー エージェントの設定など) を使用せずに HTML を正常に取得できます。
Goutte でいくつかの HTTP ヘッダーを設定する必要があると思われます。私が試してみるべきアイデアはありますか?