構造が常に変化するhtmlドキュメントをスクレイピングしています。Cssのクラス名も変わるので、あてになりません。ただし、決して変わらないことが 1 つあります。値は常に、次のようにまったく同じサブツリーに含まれます。
<span>
<span>
<span>wanted value</span>
<span></span>wanted value
</span>
</span>
これをXPath式で表現できますか?
一致してはいけません:
<span>
<span>
<span> 1, one too little </span>
<span> 2 </span>
<span> 3, one too many </span>
<span> 4, two too many </span>
</span>
</span>
Python の lxml を使用してこれを行う予定です。