HTMLには非常に多くの異なるパーサーがあるため、厳密なパーサーを選択するのは困難です。
私の仕事は、 URLを読み取り<table>
、特定のIDを持つを見つけてから、このテーブルのすべての行を解析し<tr>
てコンテンツ(テキスト)だけでなく、タグ内の<a>
リンクと<img>
画像も解析することです。<td>
また、データをカテゴリに並べ替えるために、各行要素のクラスをチェックする必要があります。
私の最良の選択は何でしょうか、どのライブラリとどのメソッドを使用して結果をすばやく取得する必要がありますか?
解析したいHTMLコードの一部の例:
<table id="t1">
<tr class="r1">
<td class="c1"><a href="..."><img height="50" src="..." width="50" /></a></td>
<td class="c2">
<div class="d1">
<ul class="u1">
<li class="l1"><a href="..." rel='...'>text here</a></li>
<li class="l2"><a href="..." rel='...'>text here</a></li>
</ul>
</div>
<div class="d2">
<a href="...">text here</a>
</div>
</td>
<td class="c3">
<div ...>...</div>
<div class="d2">
<a href="...">text here</a>
</div>
</td>
<td class="c4">text here</td>
<td class="c5">text here</td>
</tr>
...
</table>