両方に次の 2 つのリンクがあります。レビュー セクションは Javascript を使用して生成されます。ページの最終出力、つまりJavaでレンダリングされたjavascriptを使用したものを取得する方法はありますか?
http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp
両方に次の 2 つのリンクがあります。レビュー セクションは Javascript を使用して生成されます。ページの最終出力、つまりJavaでレンダリングされたjavascriptを使用したものを取得する方法はありますか?
http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp
これにはPhantomJSを使用できるはずです。ヘッドレス ブラウザー (WebKit を使用) として実行され、DOM 処理、CSS セレクター、JSON、Canvas、SVG などのさまざまな Web 標準をネイティブにサポートしています。
Javaベースの「GUI LESS Browser」であるHTMLユニットが利用できます。これにより、Web ブラウザーがページをロードするようにページが読み込まれ、最終的にレンダリングされた出力が返されるため、任意のページの最終的にレンダリングされた出力を簡単に取得できます。ただし、この動作を無効にすることはできます。
更新:たとえば、あなたは求めていましたか? それを行うために特別なことをする必要はありません:
例:
WebClient webClient = new WebClient();
HtmlPage myPage = ((HtmlPage) webClient.getPage(myUrl));
更新 2:次のように iframe を取得できます。
HtmlPage myFrame = (HtmlPage) myPage.getFrameByName(myIframeName).getEnclosedPage();
上記のリンクからドキュメントをお読みください。HTMLUnit でページ コンテンツを取得するためにできないことは何もありません