0

重複の可能性:
プログラムで Web ページを保存するにはどうすればよいですか?

私はcurlを始めたばかりで、外部のWebサイトを取得することができました:

function get_data($url) {
  $ch = curl_init();
  $timeout = 5;
  curl_setopt($ch,CURLOPT_USERAGENT, $userAgent);
  curl_setopt($ch,CURLOPT_URL,$url);
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  curl_setopt($ch,CURLOPT_FOLLOWLOCATION,true);
  $data = curl_exec($ch);
  curl_close($ch);
  return $data;
}
$test = get_data("http://www.selfridges.com");
echo $test;

ただし、CSS と画像は含まれていません。CSS と画像、基本的には Web サイト全体も取得する必要があります。CSS、画像、および URL を解析して作業を進める方法を理解するための簡単な方法を誰かが投稿してもらえますか?

4

2 に答える 2

1

これを行うには、PHP よりも優れたツールがあります。パラメータwgetで。--page-requisites

ただし、自動スクレイピングは多くの場合、サイトの TOS に違反することに注意してください。

于 2013-01-20T10:28:36.097 に答える
0

PHP 用の HTML パーサーがあります。利用可能なものはかなりあります。これについて説明している投稿は次のとおりです。 PHP で HTML/XML をどのように解析および処理しますか?

于 2013-01-20T10:32:31.237 に答える