0

ページのJavaScriptによって変更された後、ページのHTMLにアクセスしようとしています。これは私がオンラインで見つけたものに基づいて私が現在試みていることです。

using System; 
using System.Windows.Forms;
using System.IO; 

namespace WebBrowserDemo 
{ 
    class Program 
    {
    public const string TestUrl = @"http://www.theverge.com/2012/7/2/3126604/android-jelly-bean-updates-htc-samsung-google-pdk"; 

    [STAThread] 
    static void Main(string[] args) 
    { 
        WebBrowser wb = new WebBrowser(); 
        wb.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(wb_DocumentCompleted); 
        wb.Navigate(TestUrl); 

        while (wb.ReadyState != WebBrowserReadyState.Complete) 
        { 
            Application.DoEvents(); 
        } 

        Console.WriteLine("\nPress any key to continue..."); 
        Console.ReadKey(true); 
    } 

    static void wb_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e) 
    { 
        WebBrowser wb = (WebBrowser)sender; 

        HtmlElement document = wb.Document.GetElementsByTagName("html")[0];

        using (StreamWriter sw = new StreamWriter("OuterHTML.txt"))
        {
            sw.WriteLine(document.OuterHtml);
        }

        var abc = wb.Document.InvokeScript("eval", new object[] { "window.scrollTo(0, document.body.scrollHeight);" });

        Console.WriteLine();
        document = wb.Document.GetElementsByTagName("html")[0];

        using (StreamWriter sw = new StreamWriter("OuterHTML2.txt"))
        {
            sw.WriteLine(document.OuterHtml);
        }

    } 
} 
} 

最終的な目標は、ページの一番下までスクロールして、JSをアクティブにして記事へのコメントをロードすることです。現在、スクリプトの実行前と実行後に取得するhtmlは同じですが。

助言がありますか?

ありがとう

4

1 に答える 1

1

WebBrowser コントロールで行う必要があります。

これは基本的に IE のコンポーネント化されたバージョンです。ページをコントロールに読み込みます。おそらく、ページを表示する必要さえありません。ページが完全に読み込まれたときに呼び出されるイベント ハンドラーを登録できます。スクリプトがいつ「完了」したかを判断する明確な方法はありません。スクリプトには制限がなく、好きなだけ実行できます。したがって、ヒューリスティックな「待機期間」を構築し、その待機期間が経過した後に HTML を調べる必要があります。

ちなみに、これはまさにIECaptが行うことです。

于 2012-07-02T22:57:52.517 に答える