java - Java: HTML ファイルを解析してテキストを抽出する

Question

HTMLファイルを解析し、太字のテキスト (<b>タグ内)を保存したいと考えています。1 つの解決策は、ファイルを 1 行ずつ読み取り、分割または使用することRegExです。これは、ページ全体をString変数に格納する必要があることを意味しますか? 変数に保存しないと、タグの開始と終了が同じ行にあるという保証はありません。

どのような解決策を提案しますか?

score 5 · Accepted Answer

JSoupを使用してコンテンツを解析する

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);

java - Java: HTML ファイルを解析してテキストを抽出する

2 に答える 2

Related

Reference