php - マルチスレッドを使用して Web クローラー / スパイダーを改善する

Question

私は Web クローラーについて学び始めました。記事の助けを借りて、以下の簡単な記事を作成しました。

マルチスレッドを使用して Web クローラーを改善および高速化することを提案しました。

誰かがマルチスレッドについてもっと学び、それを以下のクローラーに適用するのを手伝ってくれるかどうか疑問に思っていました.

また、このクローラーを改善するための提案や改善点があれば、お気軽に共有してください。

コードは次のとおりです。

error_reporting( E_ERROR );

define( "CRAWL_LIMIT_PER_DOMAIN", 50 );

$domains = array();

$urls = array();

function crawl( $url )
{
    global $domains, $urls;
    $parse = parse_url( $url );
    $domains[ $parse['host'] ]++;
    $urls[] = $url;

    $content = file_get_contents( $url );
    if ( $content === FALSE )
        return;
    else {
        // do something with content.
    }

    $content = stristr( $content, "body" );
    preg_match_all( '/http:\/\/[^ "\']+/', $content, $matches );

    foreach( $matches[0] as $crawled_url ) {
        $parse = parse_url( $crawled_url );
        if ( count( $domains[ $parse['host'] ] ) < CRAWL_LIMIT_PER_DOMAIN && !in_array( $crawled_url, $urls ) ) {
            sleep( 1 );
            crawl( $crawled_url );
        }
    }
}

前もって感謝します—すべての助けに感謝します。

score 2 · Accepted Answer

幸か不幸か、PHP はマルチスレッドをサポートしていません。あなたができることは非同期パターンを実装することですが、それはあなたがナイスを忘れなければならないことを意味しfile_get_contentsますfsockopen.特定のアクションで待機が必要な間、ジョブが実行されます)。サンプルコードはこちらを参照してください。

php - マルチスレッドを使用して Web クローラー / スパイダーを改善する

1 に答える 1

Related

Reference