python - Python xmlは質問と回答を繰り返します

翻译自：https://stackoverflow.com/questions/19002353 2013-09-25T10:24:28.090

96 次

調査の回答を xml に保存していますが、残念ながら xml は均一に構築されていません。以下のxmlを参照してください。

div を反復処理してから、すべての<b>要素を質問として引き出したいのですが、サブに含まれている場合と含まれていない場合があるため、回答を処理する方法がわかり<div>ません。

elementtree の intertext か美しいスープを使用することを考えていました。しかし、 BeautifulSoup を実行すると、内部のものを含むすべての div が返されますsoup.find_all('div')。tree.itertext()のような作品ですが、可能であればネストされたループが多すぎないようにします。

この状況を最もよく処理するための提案はありますか?

 <html>
 <body>
  <div>
   <b>Question 1: What is your name?</b>
   My name is Peter.
  </div>
  <div>
   <b>Question 2: What is your native language?</b>
   <div>Esperanto</div>
  </div>
 </body>
</html>

python - Python xmlは質問と回答を繰り返します

1 に答える 1

Related

Reference