私は、scrapy を使用して、いくつかの奇妙な書式設定規則を持つサイトをクロールしています。基本的な考え方は、特定の div のすべてのテキストとサブ要素が必要であるということです。ただし、最初のいくつかと最後のいくつかを除きます。
これが要点です。
<div id="easy-id">
<stuff I don't want>
text I don't want
<div id="another-easy-id" more stuff I don't want>
text I want
<stuff I want>
...
<more stuff I want>
text I want
...
<div id="one-more-easy-id" more stuff I *don't* want>
<more stuff I *don't* want>
注意: インデントは終了タグを意味するため、ここにあるものはすべて最初の div (id="easy-id" を持つもの) の子です。
テキストとノードが混在しているため、必要なものを取得するための単純な xpath セレクターを見つけることができませんでした。この時点で、xpath から結果を lxml.etree.elementTree として取得し、.remove() メソッドを使用してハッキングすることが可能かどうか疑問に思っています。
助言がありますか?