調査の回答を xml に保存していますが、残念ながら xml は均一に構築されていません。以下のxmlを参照してください。
div を反復処理してから、すべての<b>
要素を質問として引き出したいのですが、サブに含まれている場合と含まれていない場合があるため、回答を処理する方法がわかり<div>
ません。
elementtree の intertext か美しいスープを使用することを考えていました。しかし、 BeautifulSoup を実行すると、内部のものを含むすべての div が返されますsoup.find_all('div')
。tree.itertext()
のような作品ですが、可能であればネストされたループが多すぎないようにします。
この状況を最もよく処理するための提案はありますか?
<html>
<body>
<div>
<b>Question 1: What is your name?</b>
My name is Peter.
</div>
<div>
<b>Question 2: What is your native language?</b>
<div>Esperanto</div>
</div>
</body>
</html>