現在、リンクを抽出するために yahoo などをクロールするスクリプトがあります。それは機能していますが、爆発して http:// をリンクから外し、/ を最後に (/ の後にあるものも) 取り除こうとしています。
if ($href->getAttribute('class') == 'yschttl spt') {
$link = explode('?', urldecode(array_pop(explode('**', $href->getAttribute('href')))));
$urls[] = $link[0];
}
私は前に爆発を実際に使用したことがないので、どういうわけか行全体を削除しています。上記の例は、すべての URL を返します。
例えば。ただし、返す必要があります:
Finance.yahoo.com
http://aroussi.com/freebies/scraper/dl/fus1.zipのコードを使用しています