1

重複の可能性:
Javascript で Java を文字列としてレンダリングした最終的な HTML を取得する

両方に次の 2 つのリンクがあります。レビュー セクションは Javascript を使用して生成されます。ページの最終出力、つまりJavaでレンダリングされたjavascriptを使用したものを取得する方法はありますか?

http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp

http://www.imdb.com/title/tt0461936/reviews

4

2 に答える 2

1

これにはPhantomJSを使用できるはずです。ヘッドレス ブラウザー (WebKit を使用) として実行され、DOM 処理、CSS セレクター、JSON、Canvas、SVG などのさまざまな Web 標準をネイティブにサポートしています。

于 2012-06-03T18:21:23.150 に答える
0

Javaベースの「GUI LESS Browser」であるHTMLユニットが利用できます。これにより、Web ブラウザーがページをロードするようにページが読み込まれ、最終的にレンダリングされた出力が返されるため、任意のページの最終的にレンダリングされた出力を簡単に取得できます。ただし、この動作を無効にすることはできます。

更新:たとえば、あなたは求めていましたか? それを行うために特別なことをする必要はありません:

例:

WebClient webClient = new WebClient();
HtmlPage myPage = ((HtmlPage) webClient.getPage(myUrl));

更新 2:次のように iframe を取得できます。

HtmlPage myFrame = (HtmlPage) myPage.getFrameByName(myIframeName).getEnclosedPage();

上記のリンクからドキュメントをお読みください。HTMLUnit でページ コンテンツを取得するためにできないことは何もありません

于 2012-06-03T18:25:23.147 に答える