2

HTMLファイルを解析し、太字のテキスト (<b>タグ内)を保存したいと考えています。1 つの解決策は、ファイルを 1 行ずつ読み取り、分割または使用することRegExです。これは、ページ全体をString変数に格納する必要があることを意味しますか? 変数に保存しないと、タグの開始と終了が同じ行にあるという保証はありません。

どのような解決策を提案しますか?

4

2 に答える 2

5

JSoupを使用してコンテンツを解析する

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);
于 2013-05-20T17:36:18.447 に答える