次の形式の solr 出力を解析しようとしています。
<doc>
<str name="source">source:A</str>
<str name="url">URL:A</str>
<date name="p_date">2012-09-08T10:02:01Z</date>
</doc>
<doc>
<str name="source">source:B</str>
<str name="url">URL:B</str>
<date name="p_date">2012-08-08T11:02:01Z</date>
</doc>
ドキュメントを解析するために、美しいスープ (BeautifulStoneSoup を含むバージョン。BS4 より前だと思います) を使用することに熱心です。HTML 解析に美しいスープを使用しましたが、タグの内容を抽出する効率的な方法を見つけることができません。
私は書いた:
for tags in soup('doc'):
print tags.renderContents()
出力を取得するために強制的に処理できると感じていますが(「スープ」と言うように)、データを抽出するための効率的なソリューションをいただければ幸いです。必要な出力は次のとおりです。
source:A
URL:A
2012-09-08T10:02:01Z
source:B
URL:B
2012-08-08T11:02:01Z
ありがとう