1

lxml の特定のタグの後に情報を取得する必要があります。xmlドキュメントは次のようになります

<?xml version="1.0" encoding="ISO-8859-1"?>
<web-app xmlns="http://java.sun.com/xml/ns/j2ee"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://java.sun.com/xml/ns/j2ee http://java.sun.com/xml/
ns/j2ee/web-app_2_4.xsd"
    version="2.4">
    <display-name>Community Bank</display-name>
    <description>WebGoat for Cigital</description>

        <context-param>
                <param-name>PropertiesPath</param-name>
<param-value>/WEB-INF/properties.txt</param-value>
                <description>This is the path to the properties file from the servlet root</description>
        </context-param>

    <servlet>
        <servlet-name>Index</servlet-name>
<servlet-class>com.cigital.boi.servlet.index</servlet-class>
    </servlet>
    <servlet-mapping>
        <servlet-name>Index</servlet-name>
        <url-pattern>/index</url-pattern>
    </servlet-mapping>

    <servlet-mapping>
        <servlet-name>Index</servlet-name>
        <url-pattern>/index.html</url-pattern>
    </servlet-mapping>

com.cigital.boi.servlet.index を読みたいです。

このコードを使用して、サーブレットの下のすべてを読み取りました

    context = etree.parse(handle)
    list = parser.xpath('//servlet')
    print list

リストにはこれ以上の情報は含まれていません: コンテキスト フィールドを反復処理すると、これらの行が見つかりました。

<Element {http://java.sun.com/xml/ns/j2ee}servlet-name at 2ad19e6eca48>
<Element {http://java.sun.com/xml/ns/j2ee}servlet-class at 2ad19e6ecaf8>

検索中に名前空間が含まれていなかったので考えています。出力は空のリストです。servlet-classタグで「com.cigital.boi.servlet.index」を読むように提案してください

4

1 に答える 1

7

以下を試してください:

from lxml import etree
context = etree.parse(handle)
print next(x.text for x in context.xpath('.//*[local-name()="servlet-class"]'))

別:

from lxml import etree
context = etree.parse(handle)
nsmap = context.getroot().nsmap.copy()
nsmap['xmlns'] = nsmap.pop(None)
print next(x.text for x in context.xpath('.//xmlns:servlet-class', namespaces=nsmap))
于 2013-08-12T15:05:10.957 に答える