JavaでWebページのコンテンツを読み取る方法はありますか?
Web ページは単純な HTML ページではなく、ajax 呼び出し、画像、PDF、および Flash が含まれています。ページのすべてのコンテンツを読み取り/ダウンロードする必要があります (ajax 呼び出しが実行された後)。
これに対する解決策を教えてください。
JavaでWebページのコンテンツを読み取る方法はありますか?
Web ページは単純な HTML ページではなく、ajax 呼び出し、画像、PDF、および Flash が含まれています。ページのすべてのコンテンツを読み取り/ダウンロードする必要があります (ajax 呼び出しが実行された後)。
これに対する解決策を教えてください。
クローラーと処理ツールを探しています。
多くの オープン ソース クローラーがリストされています。検索サーバーであるSolrで使用できます
この目的のために、さまざまな html パーサーが存在します。そのうちの 1 つを使用できます。
http://ccil.org/~cowan/XML/tagsoup/
http://jericho.htmlparser.net/docs/index.html
これらのソリューションは、html タグに含まれる画像を抽出します。CSS 抽出には、css パーサーを使用できます。