1

新しい Web サイトの立ち上げに取り組んでいますが、解析を行う最善の方法がわかりません。

私がやっていることは、このWeb ページを解析して、コメント (最後の 3 つ)、「新着情報」ページ、アクセス許可ページ、および右バー (評価などを含むもの) を解析することです。

parse_url と他のいくつかの方法を見てきましたが、実際には何も機能していません。

どんな助けでも大歓迎です、そして例はさらに良いです! 前もって感謝します。

4

4 に答える 4

2

このジョブにはDOMを使用することをお勧めします。これは、WebサイトのすべてのURLをフェッチする例です。

$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com');

foreach( $doc->getElementsByTagName('a') as $item){
    $href =  $item->getAttribute('href');
    var_dump($href);
}
于 2012-06-22T10:47:47.237 に答える
1

parse_url実際の URL を解析します (URL が指すページではありません)。

やりたいことは、それが指している Web ページをスクレイピングし、そこからコンテンツを取得することです。を使用する必要がありますfopen。これにより、ページの HTML ソースが提供され、HTML が解析されて必要なものが取得されます。

免責事項: ページのスクレイピングは常に許可されているわけではありません。

于 2012-01-04T03:50:15.973 に答える
1

シンプルな HTML DOM

私はそれを使用し、それはうまく機能します。提供されたリンクのサンプル。

于 2012-01-04T03:53:54.023 に答える
0

PHP SimpleXML 拡張機能は、こちらの友達です: http://php.net/manual/en/book.simplexml.php

于 2012-01-04T03:48:08.487 に答える