ページのテキストコンテンツが必要なだけで、フェッチをできるだけ軽量にしたい. HTMLUnit がすぐに実行する JavaScript、CSS、およびその他の外部コンテンツのすべての解析と追加の読み込みを無効にすることはできますか?
質問する
5980 次
1 に答える
12
あなたが探しているものに最も近いものは次のとおりだと思います:
WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);
HtmlUnit 2.13 以降では、 を使用しますwebclient.getOptions()
。
また、この質問と回答も役立つ場合があります。本当に高速になりましたが、HtmlUnit を再コンパイルする必要がありました...
最後に、( の出力ではなく) ページの元のコンテンツを取得するには、asXml()
次のことを試してください。
WebClient webClient = new WebClient();
HtmlPage page = webClient.getPage("http://www.yourpage.com");
String originalHtml = page.getWebResponse().getContentAsString();
于 2012-04-10T16:21:13.000 に答える