見出しを含む html テキスト ファイルがあり、内部のテキストのみを抽出したい
例:
<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>
HTML コードから次のテキストのみを抽出したいと思います。
消防、本書について、1、本書の目次
私は次のような多くのことを試しました:
Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);
入力はhtmlデータです。
コンソールで結果が得られませんでした。または、href しか得られない場合があります:(
どうすればこれを修正できますか?
お知らせ下さい!ありがとう!