注:初期の回答の一部が提供されたため、質問が更新されました。それはまだ同じ質問ですが、うまくいけばより明確になります。
サイト スクレーパーを適切に動作させようとしていますが、いくつかのテーブル セルに適した xpath 文字列を見つけるのに問題があります。
<tbody>
<tr>
<td class="Label" width="20%" valign="top">Uninteresting section</td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td></td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td class="Label" width="20%" valign="top">Interesting section</td>
<td class="Data"> I want this-1</td>
</tr>
<tr>
<td></td>
<td class="Data"> I want this-2</td>
</tr>
<tr>
<td></td>
<td class="Data"> I want this-n</td>
</tr>
<tr>
<td class="Label" width="20%" valign="top">Uninteresting section</td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td></td>
<td class="Data"> I don't care about this</td>
</tr>
</tbody>
対象セクションのすべてのデータ フィールドの内容が必要です。これらは任意の数存在する可能性があります。コード内の他のことは気にしませんが、これらすべてが必要です。
上記の例では、次のようになります。
関連がある場合は、Python 2.7 で xml.dom.minidom と py-dom-xpath を使用しています。