1
4

2 に答える 2

1

正規表現を使用したスクレープ:

$html = <<<EOF
<ul id="blahlist">
    <li><a href="http://blahblah.com">blah blah</a></li>
    <li><a href="http://blahblah2.com">blah blah 2</a></li>
    <li><a href="http://blahblah2.com">blah blah 3</a></li>
    <li><a href="http://blahblah2.com">blah blah 4</a></li>
</ul>
EOF;

$ul_id = "blahlist";

if (preg_match("#<ul[^<>]+id=[\"']?{$ul_id}[\"']?[^<>]*>([\s\S]+?)</ul>#i", $html, $match)) 
{
    $lis = $match[1];
    preg_match_all("#<li[^<>]*>\s*<a[^<>]+href=[\"']?([^<>\"']+)[\"']?[^<>]*>([\s\S]+?)</a>#i", $lis, $matches);
    foreach ($matches[1] as $k => $href) {
        $href = strip_tags($href);
        $text = strip_tags($matches[2][$k]);
        print "$text [$href]<br>";
    }
}

この行のulリストのIDを編集するだけです。

$ul_id = "blahlist";

結果:

blah blah [http://blahblah.com]
blah blah 2 [http://blahblah2.com]
blah blah 3 [http://blahblah2.com]
blah blah 4 [http://blahblah2.com]
于 2011-11-15T11:11:09.853 に答える
1

どうですか

$dom->find("#blahlist li");

li下に あるすべての を「つかむ」ことです#blahlist

于 2011-11-15T09:48:49.473 に答える