私は Web クローラーについて学び始めました。記事の助けを借りて、以下の簡単な記事を作成しました。
マルチスレッドを使用して Web クローラーを改善および高速化することを提案しました。
誰かがマルチスレッドについてもっと学び、それを以下のクローラーに適用するのを手伝ってくれるかどうか疑問に思っていました.
また、このクローラーを改善するための提案や改善点があれば、お気軽に共有してください。
コードは次のとおりです。
error_reporting( E_ERROR );
define( "CRAWL_LIMIT_PER_DOMAIN", 50 );
$domains = array();
$urls = array();
function crawl( $url )
{
global $domains, $urls;
$parse = parse_url( $url );
$domains[ $parse['host'] ]++;
$urls[] = $url;
$content = file_get_contents( $url );
if ( $content === FALSE )
return;
else {
// do something with content.
}
$content = stristr( $content, "body" );
preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );
foreach( $matches[0] as $crawled_url ) {
$parse = parse_url( $crawled_url );
if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
sleep( 1 );
crawl( $crawled_url );
}
}
}
前もって感謝します—すべての助けに感謝します。