URL から動的ページを取得しようとしています。私はJavaで働いています。Selenium を使用してこれを実行しましたが、多くの時間がかかります。Seleniumのドライバの起動に時間がかかるため。そこで、GUILess Browser である HtmlUnit に移行しました。しかし、私の HtmlUnit 実装にはいくつかの例外があります。
質問:-
- HtmlUnit の実装を修正するにはどうすればよいですか。
- Selenium によって生成されたページは、HtmlUnit によって生成されたページに似ていますか? [ どちらも動的かどうか? ]
私のセレンコードは:-
public static void main(String[] args) throws IOException {
// Selenium
WebDriver driver = new FirefoxDriver();
driver.get("ANY URL HERE");
String html_content = driver.getPageSource();
driver.close();
// Jsoup makes DOM here by parsing HTML content
Document doc = Jsoup.parse(html_content);
// OPERATIONS USING DOM TREE
}
HtmlUnit コード:-
package XXX.YYY.ZZZ.Template_Matching;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.junit.Assert;
import org.junit.Test;
public class HtmlUnit {
public static void main(String[] args) throws Exception {
//HtmlUnit htmlUnit = new HtmlUnit();
//htmlUnit.homePage();
WebClient webClient = new WebClient();
HtmlPage currentPage = webClient.getPage("http://www.jabong.com/women/clothing/womens-tops/?source=women-leftnav");
String textSource = currentPage.asText();
System.out.println(textSource);
}
}
それは例外を示しています:-