python - 次のページのフォローアップリンクが現在のページのソースコードで利用できない場合、Web サイトのすべてのページをスクレイプする

Question

こんにちは、Python と正規表現を使用して、いくつかのショッピング Web サイトのすべてのページをスクレイピングすることに成功しました。しかし今、私は次のページのフォローアップリンクが現在のページに存在しない特定のウェブサイトのすべてのページをスクレイピングするのに苦労していますhttp://www.jabong.com/men/clothing/mens-jeans/

この Web サイトは、Ajax 呼び出しによって同じページの次のページデータを動的にロードしています。したがって、スクレイピング中は、最初のページのデータのみをスクレイピングできます。しかし、その Web サイトのすべてのページにあるすべてのアイテムをスクレイピングする必要があります。

現在のページで次のページのフォローアップリンクが利用できないこれらのタイプの Web サイトのすべてのページのソースコードを取得する方法がありません。これで私を助けてください。

score 0 · Accepted Answer

ユーザーが下にスクロールすると、サイトは AJAX リクエストを使用してより多くの検索結果を取得しているようです。検索結果の最初のセットは、メインリクエストで見つけることができます。

http://www.jabong.com/men/clothing/mens-jeans/

ユーザーが下にスクロールすると、ページは現在の結果セットの最後に到達したことを検出し、必要に応じて次のセットを読み込みます。

http://www.jabong.com/men/clothing/mens-jeans/?page=2

1 つの方法は、結果のないページが見つかるまで、後続のページを要求し続けることです。

ちなみに、これはスクリーンスクレイパーのプロキシツールを使って判断できました。Charles や HttpFox などのツールを使用することもできます。重要なのは、サイトを閲覧し、どのような HTTP 要求が行われるかを監視して、コードでそれらを模倣できるようにすることです。

python - 次のページのフォローアップ リンクが現在のページのソース コードで利用できない場合、Web サイトのすべてのページをスクレイプする

1 に答える 1

Related

Reference

python - 次のページのフォローアップリンクが現在のページのソースコードで利用できない場合、Web サイトのすべてのページをスクレイプする