3

HTMLの次の部分でonclick属性からリンクを「選択」しようとしています

<span onclick="Javascript:document.quickFindForm.action='/blah_blah'" 
 class="specialLinkType"><img src="blah"></span>

ただし、次の XPath よりも先に進むことはできません

//span[@class="specialLinkType"]/@onclick

返すだけ

Javascript:document.quickFindForm.action

quickFindForm.actionXPath を使用して内部のリンクを選択する方法についてのアイデアはありますか?

4

3 に答える 3

1

JavaアプリケーションでXPathを試しましたが、問題なく動作しました。

    import java.io.IOException;
    import java.io.StringReader;

    import javax.xml.parsers.DocumentBuilder;
    import javax.xml.parsers.DocumentBuilderFactory;
    import javax.xml.parsers.ParserConfigurationException;
    import javax.xml.xpath.XPath;
    import javax.xml.xpath.XPathExpression;
    import javax.xml.xpath.XPathFactory;

    import org.w3c.dom.Document;
    import org.xml.sax.InputSource;
    import org.xml.sax.SAXException;

    public class Teste {

        public static void main(String[] args) throws Exception {
            Document doc = stringToDom("<span onclick=\"Javascript:document.quickFindForm.action='/blah_blah'\" class=\"specialLinkType\"><img src=\"blah\"/></span>");
            XPath newXPath = XPathFactory.newInstance().newXPath();
            XPathExpression xpathExpr = newXPath.compile("//span[@class=\"specialLinkType\"]/@onclick");
            String result = xpathExpr.evaluate(doc);
            System.out.println(result);

        }

        public static Document stringToDom(String xmlSource) throws SAXException, ParserConfigurationException, IOException {
            DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
            DocumentBuilder builder = factory.newDocumentBuilder();
            return builder.parse(new InputSource(new StringReader(xmlSource)));
        }
    }

結果:

Javascript:document.quickFindForm.action='/blah_blah'
于 2011-07-02T01:30:41.930 に答える
0

Scrapy が XPath 文字列関数をサポートしている場合、これは機能します

substring-before(
   substring-after(
      //span[@class="specialLinkType"]/@onclick,"quickFindForm.action='")
   ,"'")

正規表現もサポートしているようです。このようなものが動作するはずです

.select('//span[@class="specialLinkType"]/@onclick').re(r'quickFindForm.action=\'(.*?)\'')

警告: 2 番目の解決策をテストすることはできません\'。この場合、一重引用符の適切なエスケープ シーケンスであることを確認する必要があります。

于 2011-07-03T02:55:27.560 に答える
0

xquery を使用しましたが、xpath でも同じはずです。正規表現 (http://www.xqueryfunctions.com/xq/fn_tokenize.html) に基づいて文字列を分割する xpath 関数「tokenize」を使用しました。この場合、「 ' 」に基づいて文字列を分割します

        xquery version "1.0";
        let $x := //span[@class="specialLinkType"]/@onclick
        let $c := fn:tokenize( $x, '''' )
        return $c[2]

xpath では次のようにする必要があります。

        fn:tokenize(//span[@class="specialLinkType"]/@onclick, '''' )[2]
于 2011-07-04T12:56:51.280 に答える