3

調査の回答を xml に保存していますが、残念ながら xml は均一に構築されていません。以下のxmlを参照してください。

div を反復処理してから、すべての<b>要素を質問として引き出したいのですが、サブに含まれている場合と含まれていない場合があるため、回答を処理する方法がわかり<div>ません。

elementtree の intertext か美しいスープを使用することを考えていました。しかし、 BeautifulSoup を実行すると、内部のものを含むすべての div が返されますsoup.find_all('div')tree.itertext()のような作品ですが、可能であればネストされたループが多すぎないようにします。

この状況を最もよく処理するための提案はありますか?

 <html>
 <body>
  <div>
   <b>Question 1: What is your name?</b>
   My name is Peter.
  </div>
  <div>
   <b>Question 2: What is your native language?</b>
   <div>Esperanto</div>
  </div>
 </body>
</html>
4

1 に答える 1