java - Java を使用して HTML ページで動的にレンダリングされたコンテンツを抽出する

Question

次のようなHTMLページがあります

<html>
<head>
<!-- necessary java scripts -->
</head>
<body>
<div id="content"></div>
</body>

スクリプトを使用すると、ページがレンダリングされるときに、適切な html コンテンツが ID "content" の div 要素内に配置されます。そのため、ページがレンダリングされた後、div 要素を含む大量の html コンテンツが存在します。

ここで、Java を使用して div 要素内で動的にレンダリングされたコンテンツを抽出する必要があります。誰でもそれを行う方法を提案できますか?

score 1 · Accepted Answer

問題は、Javaのページでスクリプトを評価する必要があることです。あなたはそれをするためにいくつかのウェブエンジンを手に入れる必要があります。ここを見ることができます：JavaでのGecko / Webkitの埋め込みそして、Webkitまたはgeckoを使用してページをロードしてみてください。次に、Javaライブラリを使用してHTMLを解析できます。

score 0 · Accepted Answer

0

これらを見てください：

http://java-source.net/open-source/html-parsers

于 2012-05-23T08:31:08.400 に答える

score 0 · Accepted Answer

javax.swing.text.html.HTMLEditorKit.Parser で html を解析できます。このリンクを見てください。

http://java.sun.com/products/jfc/tsc/articles/bookmarks/

java - Java を使用して HTML ページで動的にレンダリングされたコンテンツを抽出する

3 に答える 3

Related

Reference