c# - Web サイトの HTML コンテンツを解析する方法

翻译自：https://stackoverflow.com/questions/18746627 2013-09-11T16:33:05.727

10019 次

-1

CNN.com などの Web サイトの HTML を解析しようとしていますが、WebBrowser オブジェクトを使用して移動するたびに、オブジェクトの null 値が大量に取得されます。私は HTML Agility Pack を使用していません。Navigate メソッドを呼び出すたびに、mywebBrowser には null 値と空白値が含まれます。tagCollection を取得するにはどうすればよいですか? HTMLページのすべてのコンテンツを取得するためだけにwebClient.DownloadStringを実行しようとしましたが、すべてのタグを見つける必要があり、手動で行うのは非常に面倒なので、これを使用できません。HTML Agility Pack も使用できません。

        using (WebClient webClient = new WebClient())
        {
            webClient.Encoding = Encoding.UTF8;
            HtmlString = webClient.DownloadString(textBox1.Text);
        }

        WebBrowser mywebBrowser = new WebBrowser();
        Uri address = new Uri("http://www.cnn.com/");
        mywebBrowser.Navigate(address);

        //HtmlString does contain all the HTML from Page
        mywebBrowser.DocumentText = HtmlString; 
        //DocumentText only has "<HTML></HTML> after assignment


        HtmlDocument doc = mywebBrowser.Document;
        HtmlElementCollection tagCollection;
        tagCollection = doc.GetElementsByTagName("<div");

c# - Web サイトの HTML コンテンツを解析する方法

1 に答える 1

Related

Reference