java - 特定のdivのページスクレイプ

Question

Javaを使用して特定のWebページのHTML出力を読み取る方法があるかどうか疑問に思っていますか？

私はphpであなたが次のようなことをすることができることを知っています：

$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

Javaに相当するものを探しています。

さらに、レンダリングされたhtmlを取得したら、IDで単一のdivを削除できるJavaユーティリティはありますか？

これについて助けてくれてありがとう。

score 2 · Accepted Answer

jsoupを使用します。

ツリーモデルと、CSSまたはjQueryセレクターに似た強力なクエリ構文、およびWebページのソースをすばやく取得するためのユーティリティメソッドのいずれかを選択できます。

彼らのウェブサイトから引用するには：

ウィキペディアのホームページを取得し、それをDOMに解析して、[ニュース]セクションから要素のリストに見出しを選択します。
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

削除したいElement代表を見つけたら、それを呼び出します。divremove()

java - 特定のdivのページスクレイプ

1 に答える 1

Related

Reference