単純なWebクローラーを最適化しています(現在はPHP / curl_multiを使用しています)。
目標は、スマートであり、HTML以外のコンテンツをスキップしながら、Webサイト全体をクロールすることです。誰も使用せず、HEADリクエストのみを送信しようとしましたが、すべてのWebサイトで機能するわけではないようです(一部のサーバーはHEADをサポートしていません)。そのため、execが長時間(ページ自体をロードするよりもはるかに長く)一時停止します。
コンテンツ全体をダウンロードせずにページタイプを取得したり、ファイルがhtmlでない場合にCURLにダウンロードを強制的に中止させたりする他の方法はありますか?
(自分のhttpクライアントを作成することはできません。後で、CURL関数をCookieおよびSSLとして使用する予定です)。