0

こんにちは、Python と正規表現を使用して、いくつかのショッピング Web サイトのすべてのページをスクレイピングすることに成功しました。しかし今、私は次のページのフォローアップリンクが現在のページに存在しない特定のウェブサイトのすべてのページをスクレイピングするのに苦労していますhttp://www.jabong.com/men/clothing/mens-jeans/

この Web サイトは、Ajax 呼び出しによって同じページの次のページ データを動的にロードしています。したがって、スクレイピング中は、最初のページのデータのみをスクレイピングできます。しかし、その Web サイトのすべてのページにあるすべてのアイテムをスクレイピングする必要があります。

現在のページで次のページのフォロー アップ リンクが利用できないこれらのタイプの Web サイトのすべてのページのソース コードを取得する方法がありません。これで私を助けてください。

4

1 に答える 1

0

ユーザーが下にスクロールすると、サイトは AJAX リクエストを使用してより多くの検索結果を取得しているようです。検索結果の最初のセットは、メイン リクエストで見つけることができます。

http://www.jabong.com/men/clothing/mens-jeans/

ユーザーが下にスクロールすると、ページは現在の結果セットの最後に到達したことを検出し、必要に応じて次のセットを読み込みます。

http://www.jabong.com/men/clothing/mens-jeans/?page=2

1 つの方法は、結果のないページが見つかるまで、後続のページを要求し続けることです。

ちなみに、これはスクリーンスクレイパーのプロキシツールを使って判断できました。Charles や HttpFox などのツールを使用することもできます。重要なのは、サイトを閲覧し、どのような HTTP 要求が行われるかを監視して、コードでそれらを模倣できるようにすることです。

于 2013-05-31T20:06:06.833 に答える