3

jsoup を使用してカスタム クローラーを作成しました。特定のリスティング ページからすべてのデータをスクラップできます。しかし、 pagination を持つページの場合、 pagination 要素からリンクを取得するにはどうすればよいですか? Amazon、eBay などに存在する小売りリストと同様に、製品リストの最初のページの URL を jsoup に渡します。それは正常に動作します。しかし、残りのページのリンクを取得するプロセスを自動化するにはどうすればよいですか。

ページネーションのクラスをハードコーディングすることで要素を取得できることを理解しています。しかし、私はそれを行う一般的な方法を探しています。

4

2 に答える 2

0

サイトがページネーション リンクに の注釈を付けている場合、rel="next"それらのリンクをたどってさらにページを取得できます。

さらに、HTML 自体には、ページネーション内のページ間の関係を指定するものは何もありません。ヒューリスティックを使用する必要があります (たとえば、"next" を含むテキストを含むリンク、または増分番号 (1、2、3 ... 最後) を含む一連のリンク)。明らかに、これらのヒューリスティックはすべてのサイトで機能するわけではなく、サイトのデザインが更新されると機能しなくなる可能性があります。

于 2014-05-24T22:06:35.083 に答える