特定の Xpath にあるファイルから html コードを取得しようとしています。HTMLUnit を使用してみましたが、Google キャッシュからダウンロードしたこれらの静的ファイルをうまく処理できないようです。私は HTMLCleaner で少し運が良かったのですが、これまでのところテキストだけを取得でき、HTML コードは取得できませんでした。どんな提案も役に立ちます。以下は私が現在使用しているコードです。
TagNode tagNode = new HtmlCleaner().clean(readFile(htmlCacheFile));
Document doc = new DomSerializer(new CleanerProperties()).createDOM(tagNode);
XPath xpath = XPathFactory.newInstance().newXPath();
String title = ((String) xpath.evaluate(TITLE_XPATH, doc, XPathConstants.STRING)).trim();
String body = ((String) xpath.evaluate(BODY_XPATH, doc, XPathConstants.STRING)).trim();