特定のリンクを移動してコンテンツを抽出できる非常に初歩的なクローラーを構築しようとしています。ページ上のリンクをたどり、必要なコンテンツを読むために JSoup を使用しています。
ただし、サイトの 1 つで障害に遭遇しました。これは、ユーザーが自分のコメントを投稿できる一種のニュース ポータルです。これらのコメントを抽出する必要があります。ただし、コメントが 5 つを超える場合、それらは複数のページにまたがり、後続のページへのリンクは、(実際のリンクではなく) href の JavaScript コードによって作成されます。それは次のようなものです:
<a id="pager1_lnkPage2" href="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions("pager1$lnkPage2", "", true, "", "", false, true))">2</a>
この JavaScript によって生成されたリンクをたどる方法がわかりません。これらのリンクによって参照されるページのデータを取得する方法はありますか (他のページをナビゲートしている間、URL は変更されないため、表面上は新しいリンクが作成されないように見えます)。
参考までに、そのようなページへのリンクをここに示します。複数のページをナビゲートするためのリンクは、ページの右下隅にあります。
これは、本編のあるページに iframe で埋め込まれています。
また、javax で ScriptEngine と呼ばれるインターフェースに出くわしましたが、ここで使用するほど十分に理解できませんでした。
ありがとう