3

JSoup で Web サイトをスクレイピングしたいと考えています。この Web サイトは動的で、1 秒ごとに更新されます。HTMLのいくつかのタグを更新するJQueryを使用していると確信しています。JSoup を使用していますが、動的領域が空白です。JSoup には、この問題を解決するための特別な機能がありますか? それともこれが限界?編集: これを自分の Web サイトの Java アプレットに入れる予定です。

4

3 に答える 3

4

JSoup を JavaScript をサポートするブラウザーのように動作させたいと考えているようです。それはうまくいかないでしょう、私は恐れています。JSoup は、HTTP 要求を実行し、応答本文を何か役に立つものに使用できるツールです。

この「便利な機能」は、応答の (X)HTML テキストから情報を抽出することです。JavaScript が注入された HTML ページ (=動的 Web ページ) の読み込みに続いて、後続の ajax-request のコンテンツが必要な場合は、それらのフォローアップ リクエストを自分でモデル化し、JSoup にそれらを手動で実行するように指示する必要があります。

于 2013-02-10T21:04:11.013 に答える
2
  1. 実際のブラウザでページを開くSelenium WebDriver
  2. 要素をアドレス指定し、Selenium WebDriver API を使用してそのコンテンツを取得します。ページのコンテキストで JS コードを呼び出すこともできます
  3. JSoup などで解析します。
于 2013-02-11T01:27:14.097 に答える
1

HTMLUnit は、javascript をサポートする Java ベースのウィンドウレス ブラウザで、いくつかのスクラップ プロジェクトで使用しましたが、うまく機能しましたが、大規模な操作で少し遅くなることもありました。また、プロキシもサポートしています。 http://htmlunit.sourceforge.net/

于 2013-10-31T02:41:09.787 に答える