php - 複数の URL から特定のデータを取得するためのベストプラクティスは何ですか?

Question

特定の URL から製品に関するデータ、つまり画像、製品タイトル、価格などを取得する必要があります。現在、単純な PHP file_get_contents コードを使用して Web ページのすべての画像を取得しているので、うまく機能しています。ただし、他のデータをフェッチするためのベストプラクティスは何だろうと思っています。Etsy、Zappos、ASOS、Net-a-Porter、Nordstrom、PopSugar からデータをフェッチできる必要があります。ボットは必要ですか? それは可能ですか？事前にどうもありがとうございました！

score 1 · Accepted Answer

を使用file_get_contents()してページの html を取得できますが、その後、DOM を読み取って、情報を読み取りたい要素 (画像からの src、アンカーからの href など) を見つける必要があります。

あなたが望むことを行うには実際にはいくつかの方法があり、それ以上の情報がなければ具体的な答えを出すのはかなり難しいですが、次のようなものから始めることができます:

$html = file_get_contents('your url');
$Dom = new DOMDocument();
$Dom->loadHTML($html);

この時点で、ページのすべての情報が読み込まれた DomDocument ( http://www.php.net/manual/en/class.domdocument.php ) オブジェクトを取得しました。

その後、ie で要素を選択できます。Xpath。

例：

$XPath = new DOMXPath($Dom);
$Anchors = $XPath->query('//a');

for ($i = 0; $i < $Anchors->length; $i++) {
    $Anchor = $Anchors->item($i);
    echo 'Href #' . $i . ': ' . $Anchor->getAttribute('href') . '<br />';
}

上記のコードは、ページ上のすべてのアンカー href を出力します。これは、必要なことを実行するのに十分強力な基本的な例にすぎません。必要なものを正確に取得する方法を学ぶために DomDocument と XPath の使用法に飛び込む必要がありますが、この時点からはそれほど難しいことではありません。

php - 複数の URL から特定のデータを取得するためのベスト プラクティスは何ですか?

1 に答える 1

Related

Reference

php - 複数の URL から特定のデータを取得するためのベストプラクティスは何ですか?