次の形式のドキュメントを考えてみましょう。
<!DOCTYPE html>
<html>
<head>
<title></title>
<body>
<div class="blog_post_item first">
<?php // some child elements ?>
</div><!-- end blog_post_item -->
</body>
</html>
PHP cURL を使用して、このようなドキュメントをあるドメインから別のドメインにロードしています。div.blog_post_item.first
とその子のみを含めるように cURL の結果をトリミングしたいと思います。他のページの構造は知っていますが、編集できません。preg_match
開始タグと終了タグを見つけるために使用できると思います。最後のコメントを含め、常に同じように表示されます。
私は、cURL/XPath/XSLT などを使用したスクリーン スクレイピングの例/チュートリアルを検索しました。そのほとんどは、HTML 解析ライブラリの名前の周期的なガタガタ音です。そのため、簡単な作業例を提供してください。正規表現を使用した HTML の解析が潜在的なセキュリティの脆弱性であると簡単に説明しないでください。をさらに読む必要があるライブラリと仕様を単にリストしないでください 。
簡単な PHP cURL コードがいくつかあります。
$ch = curl_init("http://a.web.page.com");
curl_setopt($ch, CURLOPT_HEADER, 0);
$output = curl_exec($ch);
curl_close($ch);
もちろん、$output
ソース全体が含まれています。その要素の内容だけを取得するにはどうすればよいですか?