c# - htmlagilitypack がページのコンテンツ全体をロードしない

Question

指定された URL で Web サイトのスクラップをスクリーニングする必要があります。ページhttp://cks.nice.org.uk/?char=Bのコンテンツを読み込もうとすると、 class=" の div 内のリンク (アンカー要素) を除くすべてのコンテンツ (以下の doc オブジェクト内) を取得します。リストラッパー」

何か案は？ありがとう

using System;
using HtmlAgilityPack;

public partial class _Default : System.Web.UI.Page
{

protected void Page_Load(object sender, EventArgs e)
{
    HtmlWeb web = new HtmlWeb();
    HtmlDocument doc = null;
    doc = web.Load("http://cks.nice.org.uk/?char=B");
}

}

score 0 · Accepted Answer

私は一般的に HtmlAgilityPack や C# に精通していませんが、スクレイピングの観点から私が何をすべきかを説明できます。

取得する必要があるドキュメントはhttp://cks.nice.org.uk/js/topics.txtで、トピック名とその URL の優れた JSON 構造を提供します。それを解析すると、次のようなオブジェクトの配列が表示されます。

{"Title":"Achilles tendinopathy","Slug":"achilles-tendinopathy","Specialities":["Injuries","Musculoskeletal"]},
{"Title":"Acne vulgaris","Slug":"acne-vulgaris","Specialities":["Skin and nail"]}

それぞれから「スラッグ」を取得し、ベース URL に追加して、各トピックページを取得します。たとえば、 http: //cks.nice.org.uk/achilles-tendinopathy

c# - htmlagilitypack がページのコンテンツ全体をロードしない

1 に答える 1

Related

Reference