3

単純な Web クローラーを検索してきましたが、StreamBuilder または文字列内の要素を検索する必要があります。例、ID「bodyDiv」の div 内のすべてのコンテンツを取得する必要があります。これを手伝ってくれるツールはどれですか?

private static string GetPage(string url)

        {

            HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
            request.UserAgent = "Simple crawler";    
            WebResponse response = request.GetResponse();

            Stream stream = response.GetResponseStream();

            StreamReader reader = new StreamReader(stream);

            string htmlText = reader.ReadToEnd();
            return htmlText;

        }
4

1 に答える 1

5

HtmlAgilityPackを使用します

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(htmlText);

var div = doc.DocumentNode.SelectSingleNode("//div[@id='bodyDiv']");
if(div!=null)
{
    var yourtext = div.InnerText;
}
于 2012-11-30T13:01:01.450 に答える