ので、私は持っています :
function crawl( $url ){
$content = @file_get_contents( $url );
if( $content === FALSE) {
echo "<br/> Not working " . $url;
return;
}
$content = strtolower( $content );
preg_match_all( '/http:\/\/[^ "\']+/', $content , $links );
foreach( $links[0] as $crawled ){
sleep( 1 );
crawl( $crawled );
}
}
私が与えたサイト ($url) を通過し、そこにあるすべてのリンクを Web クローラーのように検索し、最初のサイトを通過してどこにも行かないリンクを取得するようにしたいそれらはcssリンクまたはjsまたはページではない何かです。body タグまたは実際のリンクのリンクのみを取得するように修正するにはどうすればよいですか?