1

20,000 以上のドメイン名のリストを取得して、それらが「生きている」かどうかを確認しようとしています。本当に必要なのは単純な http コード チェックだけですが、それを curl_multi で動作させる方法がわかりません。私が使用している別のスクリプトには、1000 個のドメインのバッチを同時にチェックし、json 応答コードを返す次の関数があります。これを変更して、ページ コンテンツの代わりに http 応答コードを取得することはできますか?

(行ごとに移動して4つのスペースを追加しないと、素敵なコードブロックとして貼り付けることができなかった構文について申し訳ありません...(行をスキップして8つのスペースを追加しようとしました)

$dotNetRequests = ドメインの配列...

//loop through arrays
foreach(array_chunk($dotNetRequests, 1000) as $Netrequests) {
    $results = checkDomains($Netrequests);
    $NetcurlRequest = array_merge($NetcurlRequest, $results);
}

function checkDomains($data) {

// array of curl handles
$curly = array();
// data to be returned
$result = array();

// multi handle
$mh = curl_multi_init();

// loop through $data and create curl handles
// then add them to the multi-handle
foreach ($data as $id => $d) {

$curly[$id] = curl_init();

$url = (is_array($d) && !empty($d['url'])) ? $d['url'] : $d;
curl_setopt($curly[$id], CURLOPT_URL,            $url);
curl_setopt($curly[$id], CURLOPT_HEADER,         0);
curl_setopt($curly[$id], CURLOPT_RETURNTRANSFER, 1);

// post?
if (is_array($d)) {
  if (!empty($d['post'])) {
    curl_setopt($curly[$id], CURLOPT_POST,       1);
    curl_setopt($curly[$id], CURLOPT_POSTFIELDS, $d['post']);
  }
}

curl_multi_add_handle($mh, $curly[$id]);
  }

  // execute the handles
  $running = null;
  do {
    curl_multi_exec($mh, $running);
  } while($running > 0);

  // get content and remove handles
  foreach($curly as $id => $c) {
     // $result[$id] = curl_multi_getcontent($c);
// if($result[$id]) {
if (curl_multi_getcontent($c)){
    //echo "yes";
    $netName = $data[$id];
    $dName = str_replace(".net", ".com", $netName);
    $query = "Update table1 SET dotnet = '1' WHERE Domain = '$dName'";
    mysql_query($query);
}
curl_multi_remove_handle($mh, $c); 
}

// all done
 curl_multi_close($mh);

return $result;
} 
4

2 に答える 2

1

他の言語では、この種の操作をスレッド化します...

https://github.com/krakjoe/pthreads

そして、PHPでもできます:)

20,000 の個々のスレッドではなく、いくつかのワーカーをお勧めします...20,000 のスレッドが可能性の範囲外であるというわけではありません-そうではありません...しかし、それはリソースの適切な使用にはなりません。私はあなたのようにします現在、20 人のワーカーがそれぞれ 1000 ドメインの結果を取得しています...応答コードを取得する例を示す必要はないと思います。curl がそれを提供すると確信していますが、おそらくやり過ぎですスレッド機能を必要としないため、curl を使用します。ポート 80 を fsockopen し、fprintf GET HTTP/1.0/\n\n、最初の行を fgets して接続を閉じます...これをすべて行う場合その時、私は Connection: close も使用して、受信側のマシンが不要な接続を保持しないようにします...

于 2012-09-20T16:22:19.637 に答える
0

このスクリプトは、PHP を使用して大量の同時 cURL リクエストを処理するのに最適です。それを使用して、わずか数分で 50,000 のドメインを解析できます!

https://github.com/petewarden/ParallelCurl/

于 2012-09-23T16:50:39.810 に答える