0

タグ内にあるページソースを読むのを手伝ってくれる人はいますか?

htmlUnit と jsoup を試してみましたが、内部のコンテンツとタグのみが返されます。どんな反応でも大歓迎です。

4

2 に答える 2

0

JSoupelement.html()のタグ自体の包含ではなくHTMLを読み取るために使用します

例えば:

String html = "<p>An </p><form action="SOMESERVLET"><b>example</b></form> ";
Document doc = Jsoup.parse(html);
String htmlContent = doc.select("form").first().html();

あなたの場合

Document doc = Jsoup.connect("example.com").get(); 
Iterator<Element> itr = doc.select("form").iterator()
while(itr.hasNext()){ 
   Element element = itr.next();
   System.out.println(element.html());
}
于 2012-06-13T10:44:04.140 に答える
0

一歩一歩

  • URLから文字列へのhtmlを読み取る
  • <form>タグを見つけるstart index
  • *このタグが存在しない場合、最後のインデックスは長さ</form>ですlast index*
  • そしてインデックスsubstringからstart_end

単純なアルゴリズムですが、役立つツールがたくさんあると思います!!!

于 2012-06-13T10:46:32.993 に答える