新しい Web サイトの立ち上げに取り組んでいますが、解析を行う最善の方法がわかりません。
私がやっていることは、このWeb ページを解析して、コメント (最後の 3 つ)、「新着情報」ページ、アクセス許可ページ、および右バー (評価などを含むもの) を解析することです。
parse_url と他のいくつかの方法を見てきましたが、実際には何も機能していません。
どんな助けでも大歓迎です、そして例はさらに良いです! 前もって感謝します。
このジョブにはDOMを使用することをお勧めします。これは、WebサイトのすべてのURLをフェッチする例です。
$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com');
foreach( $doc->getElementsByTagName('a') as $item){
$href = $item->getAttribute('href');
var_dump($href);
}
parse_url
実際の URL を解析します (URL が指すページではありません)。
やりたいことは、それが指している Web ページをスクレイピングし、そこからコンテンツを取得することです。を使用する必要がありますfopen
。これにより、ページの HTML ソースが提供され、HTML が解析されて必要なものが取得されます。
免責事項: ページのスクレイピングは常に許可されているわけではありません。
私はそれを使用し、それはうまく機能します。提供されたリンクのサンプル。
PHP SimpleXML 拡張機能は、こちらの友達です: http://php.net/manual/en/book.simplexml.php