5

現在、私はウェブクローラーに取り組んでいます。これは、いくつかの特定のサイトを解析し、xml ファイルに出力する必要があります。ここまでは、問題ありません。Crawler は機能し、cfg ファイルを介して非常に迅速にカスタマイズできます。Jsoup を使用して HTML コンテンツを解析します。

さらにいくつかのサイトを追加したところ、JavaScript で作成された HTML コンテンツに大きな問題があることに気付きました。Jsoup で Javascript をサポートする方法はありませんか? または、少なくともブラウザで表示できる完全な HTML コンテンツを取得します。

私はすでに HtmlUnit を試しましたが、これはうまくいきませんでした。ブラウザで取得できるコンテンツが表示されませんでした。

よろしくお願いいたします。

オゴフォ

4

1 に答える 1

7

Jsoup は JavaScript をサポートしておらず、ブラウザーをエミュレートしません。Javascript を実行する予定がある場合は、忘れてください。私の経験では、ヘッドレス ブラウザである HtmlUnit が最良の結果をもたらしました (常に Java フレームワークについて話します)。

HtmlUnit で試す価値のあることの 1 つは、インスタンスBrowserVersionの作成中に (Chrome / InternetEplorer / FireFox) を変更することです。WebClient一部のサイトは別の方法で反応し、その値を変更するだけで期待どおりの結果得られる場合があります

于 2012-09-28T00:08:49.073 に答える