1

個人のウェブサイトをマイニングするために、スパン、クラス、外部ドメインの div からコンテンツを取得しようとしています。ウェブサイト www.example.com のソースコードは

    <div id="h_gold" class="h_metal">
      <div class="hm_inside">
        <div class="hm_title">Gold</div>
        <span class="arr_price_down">- 13.42 <img src="images/downarrow.jpg" alt="down" /></span>
        <div class="clear"></div>
        <div class="hm_cad">USD</div>
        <div class="hm_bottom">
          <div> Bid<br />
            <span>$1,749.20</span> </div>
          <div class="ask"> Ask<br />
            <span>$1,750.20</span> </div>
        </div>
        <!-- .hm_bottom-->
      </div>
      <!-- hm_inside-->
    </div>
    <!-- h_metal-->
    <div id="h_silver" class="h_metal">
      <div class="hm_inside">
        <div class="hm_title">Silver</div>
        <span class="arr_price_down">- 0.54 <img src="images/downarrow.jpg" alt="down" /></span>
        <div class="clear"></div>
        <div class="hm_cad">USD</div>
        <div class="hm_bottom">
          <div> Bid<br />
            <span>$33.40</span> </div>
          <div class="ask"> Ask<br />
            <span>$33.50</span> </div>
        </div>
        <!-- .hm_bottom-->
      </div>
      <!-- hm_inside-->
    </div>
    <!-- h_metal-->

ここに問題があります..次のコードを試しました..しかし、ループしません。最初の < div class="hm_bottom" > からのみコンテンツを取得します。残りは出力にありません。

    <?php
    function get_string_between($string, $start, $end)
    {
        $string = " ".$string;
        $ini = strpos($string,$start);
        if ($ini == 0)
            return "";
        $ini += strlen($start);
        $len = strpos($string,$end,$ini) - $ini;
        return substr($string,$ini,$len);
    }
    $data = file_get_contents("http://www.example.com/ajax.php?metal_cur=USD");

    $pricediv = get_string_between($data, '<div class="hm_bottom">', '</span>');
    $pricetext = strip_tags($pricediv);
    echo $pricetext;
    ?>

次に、stachoverflow を再度検索したところ、解決済みのものを見つけましたが、私のニーズに完全には一致しませんでした。出力はまあまあですが、出力からの数値データを、定義した特定の div ID に配置したいだけです。

    <?php 
    $page = file_get_contents('http://www.example.com/ajax.php?metal_cur=USD');
    $doc = new DOMDocument();
    $doc->loadHTML($page);
    $divs = $doc->getElementsByTagName('div');
    foreach($divs as $div) {
        // Loop through the DIVs looking for one withan id of "content"
        // Then echo out its contents (pardon the pun)
        if ($div->getAttribute('class') === 'hm_bottom') {
             echo $div->nodeValue;
        }
    }
    ?>

上記のコードは、stackoverflow からの 2 回目の検索からのものです。

4

1 に答える 1

3

場合によっては、str_get_htmlまたはfile_get_htmlを使用できます。

$html = str_get_html($html);
$amounts = array();
foreach ( $html->find("div[class=hm_bottom] span") as $span ) {
    $amount = trim($span->plaintext);
    if (strpos($amount, "\$") === 0)
        $amounts[] = $amount;
}

var_dump($amounts);

出力

array
  0 => string '$1,749.20' (length=9)
  1 => string '$1,750.20' (length=9)
  2 => string '$33.40' (length=6)
  3 => string '$33.50' (length=6)
于 2012-10-13T17:28:00.767 に答える