私はc#でABOTを使用してWebクローラーを作成しようとしています。多くの例を検索し、ABOT Webクローラーを追加しました。そのため、HTML ページの出力ではなく、ログ出力のみを取得できます。HTML ページの出力のみを取得したいのです。HTML 出力が HTML Agility Tool の入力であるためです。C# で ABOT Web クローラーから HTML 出力を取得するのを手伝ってください。ありがとう。
質問する
6692 次
3 に答える
8
こちらのクイックスタートページで説明されています
//Create an instance of the crawler and subscribe to the PageCrawlCompleted event
PoliteWebCrawler crawler = new PoliteWebCrawler();
crawler.PageCrawlCompleted += crawler_ProcessPageCrawlCompleted;
//The event handler method
void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e)
{
CrawledPage crawledPage = e.CrawledPage;
if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)
Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);
else
Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);
//crawledPage.Content.Text //raw html
//crawledPage.HtmlDocument //lazy loaded html agility pack object (HtmlAgilityPack.HtmlDocument)
//crawledPage.CSDocument //lazy loaded cs query object (CsQuery.Cq)
}
于 2013-09-24T05:22:07.137 に答える
0
htmlpage のみを取得するには:
crawledPage.Content
関数の内部
`static void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e)`
例えば:
static void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e)
{
CrawledPage crawledPage = e.CrawledPage;
if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)
Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);
else
Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);
if (string.IsNullOrEmpty(crawledPage.Content.Text))
Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri);
var htmlAgilityPackDocument = crawledPage.HtmlDocument; //Html Agility Pack parser
var angleSharpHtmlDocument = crawledPage.AngleSharpHtmlDocument;
//get content
Console.WriteLine(crawledPage.Content);
}
于 2016-12-11T20:35:30.607 に答える