12

この件に関して私が読んだ回答のほとんどは、System.Windows.Forms.WebBrowser クラスまたは Microsoft HTML Object Library アセンブリの COM インターフェイス mshtml.HTMLDocument のいずれかを指しています。

WebBrowser クラスは、私をどこにも導きませんでした。次のコードは、Web ブラウザーでレンダリングされた HTML コードを取得できません。

[STAThread]
public static void Main()
{
    WebBrowser wb = new WebBrowser();
    wb.Navigate("https://www.google.com/#q=where+am+i");

    wb.DocumentCompleted += delegate(object sender, WebBrowserDocumentCompletedEventArgs e)
    {
        mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)wb.Document.DomDocument;
        foreach (IHTMLElement element in doc.all)
        {
                    System.Diagnostics.Debug.WriteLine(element.outerHTML);
        }     
    };
    Form f = new Form();
    f.Controls.Add(wb);
    Application.Run(f);
} 

上記はほんの一例です。私がいる町の名前を見つけるための回避策を見つけることにはあまり興味がありません。そのような動的に生成されたデータをプログラムで取得する方法を理解する必要があるだけです。

( new System.Net.WebClient.DownloadString(" https://www.google.com/#q=where+am+i ") を呼び出し、結果のテキストをどこかに保存し、現在いる町の名前を検索します見つかった場合はお知らせください。)

しかし、Web ブラウザ (つまり、Firefox) から " https://www.google.com/#q=where+am+i " にアクセスすると、Web ページに自分の町の名前が表示されます。Firefox で、町の名前を右クリックして [Inspect Element (Q)] を選択すると、HTML コードに書かれた町の名前がはっきりとわかります。これは、たまたま、WebClient によって返される生の HTML とはかなり異なって見えます。 .

System.Net.WebBrowser で遊ぶのに飽きた後、mshtml.HTMLDocument を試してみることにしました。同じ役に立たない未加工の HTML で終わるだけです。

public static void Main()
{
    mshtml.IHTMLDocument2 doc = (mshtml.IHTMLDocument2)new mshtml.HTMLDocument();
    doc.write(new System.Net.WebClient().DownloadString("https://www.google.com/#q=where+am+i"));

    foreach (IHTMLElement e in doc.all)
    {
            System.Diagnostics.Debug.WriteLine(e.outerHTML);
    }
} 

この種の情報を取得するエレガントな方法があるに違いないと思います。今私が考えることができるのは、WebBrowser コントロールをフォームに追加し、問題の URL に移動させ、キー "CLRL, A" を送信し、ページに表示されたものをクリップボードにコピーして、それを解析します。しかし、それは恐ろしい解決策です。

4

2 に答える 2

19

Alexei's answerにいくつかのコードを提供したいと思います。いくつかのポイント:

  • 厳密に言えば、ページのレンダリングがいつ終了したかを 100% の確率で判断できるとは限りません。一部のページは非常に複雑で、継続的な AJAX 更新を使用しています。しかし、ページの現在の HTML スナップショットをポーリングして変更を確認し、プロパティを確認することで、非常に近い結果を得ることができWebBrowser.IsBusyます。それ LoadDynamicPageが以下のことです。

  • ページのレンダリングが終了しない場合に備えて、上記に加えて、いくつかのタイムアウト ロジックが存在する必要があります (注CancellationTokenSource)。

  • Async/awaitは、これをコーディングするための優れたツールです。これにより、非同期ポーリング ロジックに直線的なコード フローが与えられ、大幅に簡素化されます。

  • デフォルトでは IE7 エミュレーション モードで実行されるため、Browser Feature Controlを使用して HTML5 レンダリングを有効にすることが重要です。WebBrowserそれSetFeatureBrowserEmulationが以下のことです。

  • これは WinForms アプリですが、その概念は簡単にコンソール アプリに変換できます。

  • このロジックは、具体的に言及した URL https://www.google.com/#q=where+am+iでうまく機能します。

using Microsoft.Win32;
using System;
using System.ComponentModel;
using System.Diagnostics;
using System.Threading;
using System.Threading.Tasks;
using System.Windows.Forms;

namespace WbFetchPage
{
    public partial class MainForm : Form
    {
        public MainForm()
        {
            SetFeatureBrowserEmulation();
            InitializeComponent();
            this.Load += MainForm_Load;
        }

        // start the task
        async void MainForm_Load(object sender, EventArgs e)
        {
            try
            {
                var cts = new CancellationTokenSource(10000); // cancel in 10s
                var html = await LoadDynamicPage("https://www.google.com/#q=where+am+i", cts.Token);
                MessageBox.Show(html.Substring(0, 1024) + "..." ); // it's too long!
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
        }

        // navigate and download 
        async Task<string> LoadDynamicPage(string url, CancellationToken token)
        {
            // navigate and await DocumentCompleted
            var tcs = new TaskCompletionSource<bool>();
            WebBrowserDocumentCompletedEventHandler handler = (s, arg) =>
                tcs.TrySetResult(true);

            using (token.Register(() => tcs.TrySetCanceled(), useSynchronizationContext: true))
            {
                this.webBrowser.DocumentCompleted += handler;
                try 
                {           
                    this.webBrowser.Navigate(url);
                    await tcs.Task; // wait for DocumentCompleted
                }
                finally
                {
                    this.webBrowser.DocumentCompleted -= handler;
                }
            }

            // get the root element
            var documentElement = this.webBrowser.Document.GetElementsByTagName("html")[0];

            // poll the current HTML for changes asynchronosly
            var html = documentElement.OuterHtml;
            while (true)
            {
                // wait asynchronously, this will throw if cancellation requested
                await Task.Delay(500, token); 

                // continue polling if the WebBrowser is still busy
                if (this.webBrowser.IsBusy)
                    continue; 

                var htmlNow = documentElement.OuterHtml;
                if (html == htmlNow)
                    break; // no changes detected, end the poll loop

                html = htmlNow;
            }

            // consider the page fully rendered 
            token.ThrowIfCancellationRequested();
            return html;
        }

        // enable HTML5 (assuming we're running IE10+)
        // more info: https://stackoverflow.com/a/18333982/1768303
        static void SetFeatureBrowserEmulation()
        {
            if (LicenseManager.UsageMode != LicenseUsageMode.Runtime)
                return;
            var appName = System.IO.Path.GetFileName(System.Diagnostics.Process.GetCurrentProcess().MainModule.FileName);
            Registry.SetValue(@"HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BROWSER_EMULATION",
                appName, 10000, RegistryValueKind.DWord);
        }
    }
}
于 2014-01-05T14:10:34.963 に答える