ここでは Python に関する質問のみを受け取ります。私が見つけたツールはほとんどが Python 用であるため、新しい質問: XPath を使用して HTML サイトからいくつかのクエリを実行する必要があります。
私の現在のコードは次のようになります。
URL url = new URL("http://somesite.com");
connection = (HttpURLConnection) url.openConnection();
connection.connect();
Document doc = DocumentBuilderFactory.newInstance().newDocumentBuilder()
.parse(new InputSource(connection.getInputStream()));
XPathFactory xPathfactory = XPathFactory.newInstance();
XPath xpath = xPathfactory.newXPath();
XPathExpression expr = xpath.compile("//span[@class='a-class']");
String price = (String) expr.evaluate(doc, XPathConstants.STRING);
問題は、ページが壊れているか、XPath に読み取りに問題があることです。
[致命的なエラー] :4:254: エンティティ名は、エンティティ参照の「&」の直後にある必要があります。
org.xml.sax.SAXParseException; 行番号: 4; 列番号: 254; エンティティ名は、エンティティ参照の「&」の直後にある必要があります。
com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:251)
com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:300)
HTMLサイトをよりよく読むことができるツールはありますか? それとも、ページで正規表現を使用する必要がありますか?