-1

特に、いくつかの div 内にロードされているコンテンツのみを探しています。

cURL を使用する必要がありますか?

私はこれを認識しています:

http://simplehtmldom.sourceforge.net/

しかし、div クラスと ID を取得する方法がわかりません。

$html = file_get_contents("http://anywhoyp.yellowpages.com/whitepages");

$dom = new DOMDocument;
$dom->loadHTML($html);

$items = $dom->getElementsByTagName('div');
for ($i = 0; $i < $items->length; $i++)
        echo $items->item($i)->nodeValue . "<br/>";
4

1 に答える 1

1

file_get_contents は完全なページ ソースを取得しますが、これは必要ありません。そのため、後で DOM パーサーを使用して必要なものを抽出する必要があります。問題は、PHP DOM パーサーが遅いことです。https://github.com/msmuenchen/wiki-staticdumps/blob/master/scripts/process.phpでは、ganon ライブラリを使用して DOM を変更しました。このソースコードから、ニーズに合わせて作成する方法を理解できるはずです。

于 2012-12-28T19:44:20.347 に答える