java - Web サイトのコンテンツを読み取る Java コード

Question

JavaでWebページのコンテンツを読み取る方法はありますか?

Web ページは単純な HTML ページではなく、ajax 呼び出し、画像、PDF、および Flash が含まれています。ページのすべてのコンテンツを読み取り/ダウンロードする必要があります (ajax 呼び出しが実行された後)。

これに対する解決策を教えてください。

score 0 · Accepted Answer

クローラーと処理ツールを探しています。

多くのオープンソースクローラーがリストされています。検索サーバーであるSolrで使用できます

score 0 · Accepted Answer

この目的のために、さまざまな html パーサーが存在します。そのうちの 1 つを使用できます。

これらのソリューションは、html タグに含まれる画像を抽出します。CSS 抽出には、css パーサーを使用できます。

2 に答える 2