基本的なウェブスクレイピングを使用して、ユーザーの検索エクスペリエンスを容易にする価格比較用のデータベースを準備しようとしています。今、私はいくつかの質問があります:
必要なWebページのコンテンツを使用file_get_contents()
または取得する必要がありますか?curl
$link = "http://xyz.com";
$res55 = curl_init($link);
curl_setopt ($res55, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($res55, CURLOPT_FOLLOWLOCATION, true);
$result = curl_exec($res55);
さらに、Webページをクロールするたびに、次にアクセスするリンクをたくさん取得します。これには長い時間がかかる場合があります(Ebayのような大きなWebサイトをクロールする場合は数日かかります)。その場合、私のPHPコードはタイムアウトになります。これを行うための自動化された方法は何ですか?サーバーに変更を加えることでPHPがタイムアウトするのを防ぐ方法はありますか、それとも別の解決策がありますか?