個人のウェブサイトをマイニングするために、スパン、クラス、外部ドメインの div からコンテンツを取得しようとしています。ウェブサイト www.example.com のソースコードは
<div id="h_gold" class="h_metal">
<div class="hm_inside">
<div class="hm_title">Gold</div>
<span class="arr_price_down">- 13.42 <img src="images/downarrow.jpg" alt="down" /></span>
<div class="clear"></div>
<div class="hm_cad">USD</div>
<div class="hm_bottom">
<div> Bid<br />
<span>$1,749.20</span> </div>
<div class="ask"> Ask<br />
<span>$1,750.20</span> </div>
</div>
<!-- .hm_bottom-->
</div>
<!-- hm_inside-->
</div>
<!-- h_metal-->
<div id="h_silver" class="h_metal">
<div class="hm_inside">
<div class="hm_title">Silver</div>
<span class="arr_price_down">- 0.54 <img src="images/downarrow.jpg" alt="down" /></span>
<div class="clear"></div>
<div class="hm_cad">USD</div>
<div class="hm_bottom">
<div> Bid<br />
<span>$33.40</span> </div>
<div class="ask"> Ask<br />
<span>$33.50</span> </div>
</div>
<!-- .hm_bottom-->
</div>
<!-- hm_inside-->
</div>
<!-- h_metal-->
ここに問題があります..次のコードを試しました..しかし、ループしません。最初の < div class="hm_bottom" > からのみコンテンツを取得します。残りは出力にありません。
<?php
function get_string_between($string, $start, $end)
{
$string = " ".$string;
$ini = strpos($string,$start);
if ($ini == 0)
return "";
$ini += strlen($start);
$len = strpos($string,$end,$ini) - $ini;
return substr($string,$ini,$len);
}
$data = file_get_contents("http://www.example.com/ajax.php?metal_cur=USD");
$pricediv = get_string_between($data, '<div class="hm_bottom">', '</span>');
$pricetext = strip_tags($pricediv);
echo $pricetext;
?>
次に、stachoverflow を再度検索したところ、解決済みのものを見つけましたが、私のニーズに完全には一致しませんでした。出力はまあまあですが、出力からの数値データを、定義した特定の div ID に配置したいだけです。
<?php
$page = file_get_contents('http://www.example.com/ajax.php?metal_cur=USD');
$doc = new DOMDocument();
$doc->loadHTML($page);
$divs = $doc->getElementsByTagName('div');
foreach($divs as $div) {
// Loop through the DIVs looking for one withan id of "content"
// Then echo out its contents (pardon the pun)
if ($div->getAttribute('class') === 'hm_bottom') {
echo $div->nodeValue;
}
}
?>
上記のコードは、stackoverflow からの 2 回目の検索からのものです。