3

これが可能であることを期待してインターネットを見回してきました。基本的には、Webページのタイトルだけを取得する必要があり、他には何もありません。

Webクローラーは、ページを検査する前にページをロードする必要があるため、タスクの実行に時間がかかる場合があります。これは、私が達成しようとしているものには非効率的です...これが私がこれまでに持っているものです

phpコード

$url = 'http://www.ebay.com/itm/300702997750#ht_500wt_1156';
$str = file_get_contents($url);
$title = ''; 

if(strlen($str)>0){
   preg_match("/\<title\>(.*)\<\/title\>/",$str,$titleArr);
   $title = $titleArr[1];
}

ページの一部 (たとえば、ページの最初の 2000 文字) のみをクロールできるかどうかを知りたいです。

助けていただければ幸いです、ありがとう。

4

1 に答える 1

4

substr を使用して最初の 1000 文字を取得することも、代わりに使用することもできます

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);
echo $result;

最初の 500 バイトのみをダウンロードします。この非常に醜いゴミコードのようなものを実行することで、それをベンチングできます。

$url = 'http://www.example.com/';
$range = array();
$repeats = 10;

function average($a){
  return array_sum($a)/count($a) ;
}

for ($i=0;$i<$repeats;$i++) {
    $time_start = microtime(true);
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RANGE, '0-500');
    curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($ch);

    $time_end = microtime(true);
    $time = $time_end - $time_start;
    curl_close($ch);
    $range[] = $time;
}
echo "With range: average = ".round(average($range),2)." seconds (Min: ".round(min($range),2).", Max: ".round(max($range),2).")\n";

$range = array();

for ($i=0;$i<$repeats;$i++) {
    $time_start = microtime(true);
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($ch);

    $time_end = microtime(true);
    $time = $time_end - $time_start;
    curl_close($ch);
    $range[] = $time;
}
echo "Without range: average = ".round(average($range),2)." seconds (Min: ".round(min($range),2).", Max: ".round(max($range),2).")\n";

これを自分のサイト ( http://www.focalstrategy.com/ ) で実行すると、次のようになります。

With range: average = 0.38 seconds (Min: 0.35, Max: 0.41)
Without range: average = 0.56 seconds (Min: 0.53, Max: 0.7)

http://en.wikipedia.org/wiki/PHPに対して、次のようになります。

With range: average = 0.11 seconds (Min: 0.05, Max: 0.5)
Without range: average = 0.48 seconds (Min: 0.34, Max: 0.78)

スタックオーバーフローに対して私は得る:

With range: average = 1.31 seconds (Min: 1.1, Max: 1.46)
Without range: average = 1.37 seconds (Min: 1.18, Max: 1.7)

そしてeBayに対して私は得る:

With range: average = 1.75 seconds (Min: 1.56, Max: 1.99)
Without range: average = 1.74 seconds (Min: 1.51, Max: 2.14)

SO と eBay が範囲要求をサポートしていないことをテストで確認できます。

要約すると、これをサポートするサイトはスピードアップしますが、そうでないサイトはスピードアップしません。代わりにコード全体を取得するだけです。

于 2012-05-05T19:20:10.373 に答える