HTMLドキュメントでコンテンツを取得しようとしています。一部のドキュメントには、削除したいコンテンツがドキュメント内のどこにあるかを非常にうまく示す目次があります。それは、タグの値または text_content のいずれかであり、簡単に識別でき、必要なものを指しています。たとえば、次の値を持つ 2 つのアンカー タグが toc にあるとします。
key=href value=#listofplaces text_content=Places we have visited
key=href value=#transport text_content=Ways we have traveled
そして、ドキュメントの本文で
key=name value=listofplaces text_content=''
次に、多数の html 要素、いくつかのテーブル、おそらくいくつかの div タグ、次のアンカーが続く不明な数の要素があります
key=name value=transport text_content=''
関数からの出力を使用して、ドキュメントからコピーするセクションの開始と終了を特定することを計画していました。つまり、ドキュメントを読んで、アンカー タグ listofplaces と transport の間のセクションを切り取りました。LXML は非常に強力なため、必要なコンテンツは何らかのブランチであり、その正体を把握できていないのではないかと考えるようになりました。