これは、スクレイピング時に Web ページを取得するための最良の方法ですか?
HttpWebRequest oReq = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse resp = (HttpWebResponse)oReq.GetResponse();
var doc = new HtmlAgilityPack.HtmlDocument();
doc.Load(resp.GetResponseStream());
var element = doc.GetElementbyId("//start-left");
var element2 = doc.DocumentNode.SelectSingleNode("//body");
string html = doc.DocumentNode.OuterHtml;
私はHtmlWeb().Load
ウェブページを取得するのを見てきました。それは、Webページをロードしてスクレイプするより良い代替手段ですか?
わかりました、代わりに試してみます。
HtmlDocument doc = web.Load(url);
今、私が手に入れたとき、doc
それほど多くのプロパティを取得できませんでした。誰も好きではありませんSelectSingleNode
。私が使用できる唯一のものはGetElementById
であり、それは機能しますが、クラスを取得したいです。
このようにする必要がありますか?
var htmlBody = doc.DocumentNode.SelectSingleNode("//body");
htmlBody.SelectSingleNode("//paging");