私はこれについて何をすべきかわからないので、おそらく反対票を投じるでしょう。
次のような Web ページがあります。
<li class="specific-class">
<a href="http://unknown-url.com">Unknown Link</a>
</li>
取得することに興味のない他のいくつかの要素で満たされたページをクロールしたいと考えています。
href
要素内のアンカータグ内の属性のみを取得し、他には何も取得したくli
ありません。その後、リンクをたどって、次のような別の Web ページを取得します。
<h1 class="specific-class">Blah Blah Blah</h1>
したがって、すべての最後に、h1
要素に含まれるものをすべて取得します。
Blah Blah Blah
皆さんがこれを回避するのを手伝ってくれたら、とても感謝しています。また、どの API も適切に機能します。
要素から属性を取得するこのコードがありますが、特定の要素内で見つかった要素をクロールすることができませんでした。
<?php
include_once('simple_html_dom.php');
$target_url = "https://www.google.com/";
$html = new simple_html_dom();
$html->load_file($target_url);
foreach($html->find('a') as $link){
echo $link->href."<br>";
}
?>