c# - 部分的ではなく、完全な Html ソースを抽出する

Question

次のサイトから画像とテキストを抽出しようとしていますhttp://bit.ly/16jFeyA

Web フォーム、C#、Visual Studio、HtmlAgilityPack

エンコーディング WebClient のみでうまく動作します , ブラウザwb.Document.Encoding = "GB2312";は動作しません. 重要ではありません.

このサイトでは、画像に Lazy Load を使用しています。WebBrowser は情報付きの画像を適切にロードしますが、Web クライアント / wb.DocumentText のいずれかを使用して抽出すると、「完全な情報」がダウンロードされず、特に画像リンクなどの一部の情報が欠落しています。

とにかくこのあたりはありますか？画像と製品情報を抽出しようとしています。

下にスクロールしてイメージを強制的にロードした後、wb.DocumentText を使用して抽出 (遅延ロードのため) - http://notepad.cc/share/EjW3tFCffO

wb = ウェブブラウザ

前もって感謝します！

score 2 · Accepted Answer

ヘッドレスブラウザなど、クライアント側の JavaScript を評価および実行する方法を知っているものを使用する必要があります。PhantomJSで十分です。

1 に答える 1