1

JavaでWebページのコンテンツを読み取る方法はありますか?

Web ページは単純な HTML ページではなく、ajax 呼び出し、画像、PDF、および Flash が含まれています。ページのすべてのコンテンツを読み取り/ダウンロードする必要があります (ajax 呼び出しが実行された後)。

これに対する解決策を教えてください。

4

2 に答える 2

0

クローラーと処理ツールを探しています。

多くの オープン ソース クローラーがリストされています。検索サーバーであるSolrで使用できます

于 2012-12-07T06:19:52.370 に答える
0

この目的のために、さまざまな html パーサーが存在します。そのうちの 1 つを使用できます。

http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

これらのソリューションは、html タグに含まれる画像を抽出します。CSS 抽出には、css パーサーを使用できます。

于 2012-12-07T06:13:28.587 に答える