次の行を含む HTML テーブルがあるとします。
...
<tr>
<th title="Library of Quintessential Memes">LQM:</th>
<td>
<a href="docs/lqm.html"><b>Intro</b></a>
<a href="P/P79/">79</a>
<a href="P/P80/">80</a>
<a href="P/P81/">81</a>
<a href="P/P82/">82</a>
</td>
</tr>
<tr>
<th title="Library of Boring Books">LBB:</th>
<td>
<a href="docs/lbb.html"><b>Intro</b></a>
<a href="R/R80/">80</a>
<a href="R/R81/">81</a>
<a href="R/R82/">82</a>
<a href="R/R83/">83</a>
<a href="R/R84/">84</a>
</td>
</tr>
...
関連するのテキストが固定タイトルの小さなセット (LQM、LBR、RTT など) に<a>
ある要素内のすべての要素を選択したいと考えています。これを XPath クエリとして作成するにはどうすればよいですか?<td>
<th>
編集: 私は Python スクレイピング ツールキットである Scrapy を使用しているため、このクエリを小さなクエリのセットとして表現する方が簡単であれば、喜んでそれを使用します。たとえば、<tr>
最初の<th>
子が正規表現に一致するすべての要素を選択できれば<a>
、残りの<tr>
要素のすべての子孫を選択できれば素晴らしいでしょう。