Web サイトから動的データをスクレイピングしたいと考えています。
このサイトの上部には、「1」、「2」、「3」、「次へ」というラベルの付いたリンクがいくつかあります。数字でラベル付けされたリンクが押されると、一部のデータがコンテンツ div に動的に読み込まれます。「次へ」を押すと、ラベル「4」「5」「6」「次」のページに移動し、ページ 4 のデータが表示されます。
押されたすべてのリンクのコンテンツ div からデータをスクレイピングしたい (いくつあるかわかりません。一度に 3 つと「次へ」と表示されるだけです)。
コンテンツ div 内のデータは、複数のページにわたって均一にレイアウトされます (テキストの変更のみ)。
私は ajax リクエストをキャプチャしようとしましたが、生のリクエストを一度取得して、「pagenum」ポスト パラメータまたは新しいページにロードする何かのように変更する必要があると考えていましたが、asp でいくつかのファンキーなことを行うことがわかりました。には、リクエストごとに変化する非常に長い 16 進文字列の post パラメータがあります。私は最終的にこれを機能させることができると信じていますが、それは信じられないほど汚れており、最小のものが変更された場合には役に立たないでしょう.
私の考えでは、セレンのようなものを使用してハイパーリンクをクリックし、ページをロードして、コンテンツ div に情報を送り返すことができます。問題は、「次へ」ボタンを何回押す必要があるかわからないことです。そのため、X 回押すようにスクリプト化することはできません。これはセレンが処理できるものですか?もしそうなら、セレンを使用してこのようにスクレイピングする方法について説明しているチュートリアルを教えてもらえますか..私が見たほとんどのチュートリアルは、テストのためにセレンを使用することに焦点を当てているためです (これが意図された目的であることがわかっています)。