特定のタグを含む HTML ファイルがあります。たとえば<TABLE cellspacing=0>
、終了タグは</TABLE>
です。これらのタグの間のすべてを取得したいと思います。Java で Jericho HTML パーサーを使用して HTML を解析しています。Jericho パーサーで特定のタグ間のテキストとその他のタグを取得することは可能ですか?
例えば:
<TABLE cellspacing=0>
<tr><td>HELLO</td>
<td>How are you</td></tr>
</TABLE>
答え:
<tr><td>HELLO</td>
<td>How are you</td></tr>