java - Java での HTML テキストコードの正規表現

Question

見出しを含む html テキストファイルがあり、内部のテキストのみを抽出したい

例：

<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>

HTML コードから次のテキストのみを抽出したいと思います。

消防、本書について、１、本書の目次

私は次のような多くのことを試しました：

Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);

入力はhtmlデータです。

コンソールで結果が得られませんでした。または、href しか得られない場合があります:(

どうすればこれを修正できますか?

お知らせ下さい！ありがとう！

score 3 · Accepted Answer

TagSoup、Jericho、NekoHTML、HTML Parserなどの HTML パーサーを使用することを強くお勧めします。

java - Java での HTML テキスト コードの正規表現

1 に答える 1

Related

Reference

java - Java での HTML テキストコードの正規表現