php - PHP と cURL を使用して div コンテンツをスクレイプする

Question

私はcURLが初めてです。この amazon リンクのコンテンツ(つまり、画像、本のタイトル、著者、および 20 冊の本の価格) を html ページにスクレイピングしようとしています。これまでのところ、以下のコードを使用してページを印刷しています

<?php
function curl($url) {
    $options = Array(
        CURLOPT_RETURNTRANSFER => TRUE,
        CURLOPT_FOLLOWLOCATION => TRUE,
        CURLOPT_AUTOREFERER => TRUE,
        CURLOPT_CONNECTTIMEOUT => 120,
        CURLOPT_TIMEOUT => 120,
        CURLOPT_MAXREDIRS => 10,
        CURLOPT_URL => $url,
    );

    $ch = curl_init();
    curl_setopt_array($ch, $options);
    $data = curl_exec($ch);
    curl_close($ch);
    return $data;
}
?>

$url = "http://www.amazon.in/gp/bestsellers/books/1318209031/ref=zg_bs_nav_b_2_1318203031";
$results_page = curl($url);
echo $results_page;

正規表現を使用しようとしましたが失敗しました。ここで解決策が見つかることを願って、6時間連続で可能な限りすべてを試しましたが、本当に疲れました。解決には感謝だけでは不十分ですが、事前にお知らせください。:)

更新:私のような初心者 (ただし、cURL は使用しません) にとって非常に役立つサイト(ここをクリック)を見つけました。

score 1 · Accepted Answer

本当はAWSECommerce APIを使用する必要がありますが、Yahoo のYQLサービスを利用する方法を次に示します。

<?php
$query = sprintf(
    'http://query.yahooapis.com/v1/public/yql?q=%s',
    urlencode('SELECT * FROM html WHERE url = "http://www.amazon.in/gp/bestsellers/books/1318209031/ref=zg_bs_nav_b_2_1318203031" AND xpath=\'//div[@class="zg_itemImmersion"]\'')
);

$xml = new SimpleXMLElement($query, null, true);

foreach ($xml->results->div as $product) {
    vprintf("%s\n", array(
        $product->div[1]->div[1]->a,
    ));
}

/*
    Engineering Thermodynamics
    A Textbook of Fluids Mechanics
    The Design of Everyday Things
    A Forest History of India
    Computer Networking
    The Story of Microsoft
    Private Empire: ExxonMobil and Americ...
    Project Management Metrics, KPIs, and...
    Design and Analysis of Experiments: I...
    IES - 2013: General English
    Foundation of Software Testing: ISTQB...
    Faster: 100 Ways to Improve your Digi...
    A Textbook of Fluid Mechanics and Hyd...
    Software Engineering for Embedded Sys...
    Communication Skills for Engineers
    Making Things Move DIY Mechanisms for...
    Virtual Instrumentation Using Labview
    Geometric Dimensioning and Tolerancin...
    Power System Protection & Switchgear...
    Computer Networks
*/

php - PHP と cURL を使用して div コンテンツをスクレイプする

1 に答える 1

Related

Reference