-2

次のスクリプトを使用して、クライアントの Web サイトのサイトマップを作成しています。問題は、すべてのサイトで機能しないことです。Godaddy でホストされているすべてのサイトではないにしても、多くのサイトがスパイダーではないことがわかりました。誰かが私のスクリプトでエラーを確認できる場合、または障害の原因を知っている場合は、助けていただければ幸いです。

前もって感謝します

set_time_limit(0);
class spider_man
{
var $url;
var $limit;
var $cache;
var $crawled;
var $banned_ext;
var $domain;

function spider_man( $url, $banned_ext, $limit ){
    $this->domain = $url;
    $this->url = 'http://'.$url ;
    $this->banned_ext = $banned_ext ;
    $this->limit = $limit ;
    if( !fopen( $this->url, "r") ) return false;
    else $this->_spider($this->url);
}

function _spider( $url ){
    $this->cache = @file_get_contents( urldecode( $url ) );
    if( !$this->cache ) return false;
    $this->crawled[] = urldecode( $url ) ;
    preg_match_all( "#href=\"(https?://[&=a-zA-Z0-9-_./]+)\"#si", $this->cache, $links );
    if ( $links ) :
        foreach ( $links[1] as $hyperlink ){                
            if(strpos($hyperlink,$this->domain)===false){ break; }
            else{
                $this->limit--;
                if( ! $this->limit ) return;
                if( $this->is_valid_ext( trim( $hyperlink ) ) and !$this->is_crawled( $hyperlink ) ) :
                $this->crawled[] = $hyperlink;
                echo "Crawling $hyperlink<br />\n";
                unset( $this->cache );
                $this->_spider( $hyperlink );
                endif;
            }
        }
    endif;
}

function is_valid_ext( $url ){   
    foreach( $this->banned_ext as $ext ){
        if( $ext == substr( $url, strlen($url) - strlen( $ext ) ) ) return false;
    }
    return true;
}
function is_crawled( $url ){
    return in_array( $url, $this->crawled );
}
}

$banned_ext = array(".dtd",".css",".xml",".js",".gif",".jpg",".jpeg",".bmp",".ico",".rss",".pdf",".png",".psd",".aspx",".jsp",".srf",".cgi",".exe",".cfm");

$spider = new spider_man( 'domain.com', $banned_ext, 100 );
print_r( $spider->crawled );
4

1 に答える 1

2

file_get_contents() の fopen() を使用してサイトにアクセスする場合、AGENT または REFERRER またはその他のヘッダー情報は送信しません。これが自動化されたスクリプトであることは明らかです。

fopen を使用してコンテキストを送信することを確認する必要があります (ドキュメントを確認してコンテキストセクションを読む)、またはCURLを使用することをお勧めします。これにより、エージェント ヘッダーとリファラー ヘッダーを設定して、ブラウザーをシミュレートできます。

于 2012-09-17T00:59:18.710 に答える