1

見出しを含む html テキスト ファイルがあり、内部のテキストのみを抽出したい

例:

<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>

HTML コードから次のテキストのみを抽出したいと思います。

消防、本書について、1、本書の目次

私は次のような多くのことを試しました:

Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);

入力はhtmlデータです。

コンソールで結果が得られませんでした。または、href しか得られない場合があります:(

どうすればこれを修正できますか?

お知らせ下さい!ありがとう!

4

1 に答える 1

3

TagSoupJerichoNekoHTMLHTML Parserなどの HTML パーサーを使用することを強くお勧めします。

于 2012-12-18T07:08:07.403 に答える