3

次のようなHTMLページがあります

<html>
<head>
<!-- necessary java scripts -->
</head>
<body>
<div id="content"></div>
</body>

スクリプトを使用すると、ページがレンダリングされるときに、適切な html コンテンツが ID "content" の div 要素内に配置されます。そのため、ページがレンダリングされた後、div 要素を含む大量の html コンテンツが存在します。

ここで、Java を使用して div 要素内で動的にレンダリングされたコンテンツを抽出する必要があります。誰でもそれを行う方法を提案できますか?

4

3 に答える 3

1

問題は、Javaのページでスクリプトを評価する必要があることです。あなたはそれをするためにいくつかのウェブエンジンを手に入れる必要があります。ここを見ることができます:JavaでのGecko / Webkitの埋め込みそして、Webkitまたはgeckoを使用してページをロードしてみてください。次に、Javaライブラリを使用してHTMLを解析できます。

于 2012-05-23T08:33:32.680 に答える
0

これらを見てください:

http://java-source.net/open-source/html-parsers

于 2012-05-23T08:31:08.400 に答える
0

javax.swing.text.html.HTMLEditorKit.Parser で html を解析できます。このリンクを見てください。

http://java.sun.com/products/jfc/tsc/articles/bookmarks/

于 2012-05-23T08:28:30.743 に答える