<td valign="top" width="230">
<div>
<b><a href="http://www.cs.cornell.edu/johannes/">Johannes Gehrke</a></b>
</div>
<div class="small">
Professor<br>Computer Science, CS Field Member<br>Director of Graduate Studies<br>
Ph.D., Univ of Wisconsin, Madison, 1999<br><b>Research focus:</b> Database systems, data mining, and data privacy
</div>
</td>
指定された html 文字列からタグ シーケンスを取得したいと思います。それを行う最も簡単な方法は何ですか?たとえば、上記の html 文字列を入力として、メソッドで文字列の配列、つまり[td,div,b,a,div,br,br,br,br,b]
.
HTML文字列を解析しようとしましJsoup
たが、のようなタグをキャプチャする方法がないようbr
です. 他のJavaライブラリが私のためにトリックを行うことができるのだろうか. 最後の手段は、正規表現手法を使用することです。誰かがその目的のためのきちんとした正規表現を思いつくことができれば、それもうまくいきます。