3

私が扱っているいくつかのxmlドキュメントがあります。それらには異なるルート要素があります。ここにそれらのいくつかがあります。

<rss xmlns:npr="http://www.npr.org/rss/" xmlns:nprml="http://api.npr.org/nprml" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:content="http://purl.org/rss/1.0/modules/content/" version="2.0">
<rss version="2.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd">
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/rss2enclosuresfull.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.thisamericanlife.org/~d/styles/itemcontent.css"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:media="http://search.yahoo.com/mrss/" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0" xml:base="http://www.thisamericanlife.org">

上記の最初の例では、次のように lxml を使用しています。

>>> from lxml import objectify
>>> root = objectify.parse('file_for_first_example').getroot() # contains valid xml with first above element
>>> print root.tag
'rss'
>>> root.attrib.keys()
['version']
>>> for k in root.attrib.iterkeys():
>>>    print k
version
>>> print root.get("xmlns:npr")
None

これらの「属性」値が何であるかを感知できるようにしたいので、さまざまなフィードの形式が何であるかを推測できると思います。

事前に助けてくれてありがとう。愛と平和。

4

1 に答える 1

6

名前空間宣言は名前空間ノードです。.nsmapプロパティhttp://lxml.de/tutorial.html#namespacesが必要なようです

xhtml.nsmap
{None: 'http://www.w3.org/1999/xhtml'}
于 2012-11-09T07:39:49.997 に答える