java - 壊れた HTML サイトを XPath で解析する

Question

ここでは Python に関する質問のみを受け取ります。私が見つけたツールはほとんどが Python 用であるため、新しい質問: XPath を使用して HTML サイトからいくつかのクエリを実行する必要があります。

私の現在のコードは次のようになります。

URL url = new URL("http://somesite.com");
connection = (HttpURLConnection) url.openConnection();
connection.connect();

Document doc = DocumentBuilderFactory.newInstance().newDocumentBuilder()
                                     .parse(new InputSource(connection.getInputStream()));

XPathFactory xPathfactory = XPathFactory.newInstance();
XPath xpath = xPathfactory.newXPath();
XPathExpression expr = xpath.compile("//span[@class='a-class']");
String price = (String) expr.evaluate(doc, XPathConstants.STRING);

問題は、ページが壊れているか、XPath に読み取りに問題があることです。

[致命的なエラー] :4:254: エンティティ名は、エンティティ参照の「&」の直後にある必要があります。
org.xml.sax.SAXParseException; 行番号: 4; 列番号: 254; エンティティ名は、エンティティ参照の「&」の直後にある必要があります。
com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:251)
com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:300)

HTMLサイトをよりよく読むことができるツールはありますか? それとも、ページで正規表現を使用する必要がありますか?

score 2 · Accepted Answer

HTMLサイトをよりよく読むことができるツールはありますか?

人々はjsoupを高く評価しています。

java - 壊れた HTML サイトを XPath で解析する

1 に答える 1

Related

Reference