HTML
ファイルを解析し、太字のテキスト (<b>
タグ内)を保存したいと考えています。1 つの解決策は、ファイルを 1 行ずつ読み取り、分割または使用することRegEx
です。これは、ページ全体をString
変数に格納する必要があることを意味しますか? 変数に保存しないと、タグの開始と終了が同じ行にあるという保証はありません。
どのような解決策を提案しますか?
JSoupを使用してコンテンツを解析する
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);