php - 大きなページをスクレイピングするためのcurlの使用

Question

curl を使用した学術研究のために、人気のあるニュースサイトからコメントを収集しようとしています。コメント数が 300 未満の記事では問題なく動作しますが、その後は苦労します。

$handle = curl_init($url);
curl_setopt($handle, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($handle);
curl_close($handle);
echo $html; //just to see what's been scraped

現時点では、このページは問題なく動作しています: http://www.guardian.co.uk/commentisfree/2012/aug/22/letter-from-india-women-drink?commentpage=all#start-of-comments

しかし、合計で 700 件以上あるにもかかわらず、このコメントは 36 件しか返されません。 -コメント

大量のコメントを含む記事で苦労するのはなぜですか?

score 2 · Accepted Answer

あなたのコメントページはページ化されています。各ページには異なるコメントが含まれています。すべてのコメントページネーションリンクをリクエストする必要があります。

パラメータpage=xは、別のページの URL に追加されます。

ベースページを取得してから、ページパラメーターを使用してすべてのリンクを検索し、それらのそれぞれを順番に要求するのは良いことでしょうか?

Mike Christensen が指摘したように、Python と Scrapy を使用できるかどうか、その機能が組み込まれています。コメントが配置されている要素を指定するだけで、Python がページ上のすべてのリンクをクロールします:)

php - 大きなページをスクレイピングするためのcurlの使用

1 に答える 1

Related

Reference