Web ページをスクレイピングしていますが、IE 8 を搭載した Windows XP ボックスでスクレイパー アプリケーションを実行すると (Windows XP がサポートする最大数です)、IE9 を搭載した Windows 7 で実行した場合とは異なる HTML ソースが webBrowser.Body.OuterHtml から返されます。Webブラウザコントロールから変更されていない生のhtmlを取得する方法を知っている人はいますか??? IE が HTML を変更することは知っているので、Web サーバーから生の HTML を取得する方法を知りたいです。Windows 7 の開発ボックスでスクレイパーを作成し、Windows XP ボックスでホストすると機能しないため、面倒です。WebClient を使用してページをダウンロードするように言わないでくださいと答えた場合、ページの閲覧を簡単にサポートし、Web ブラウザー コントロールによって処理される他の小さな Web ページのことを心配する必要はありません。何らかの理由で Web ブラウザー コントロールを使用しています。webBrowser を行います。
1 に答える
2
基本的に、相反する 2 つの懸念事項があります。
- ブラウザができることによって変更されていない元のソースを取得したい
- 明らかに便利だと思うので、ブラウザに何かをさせたいと思っています。(あなたは
WebBrowser
「理由のために」を使用していると言いましたが、実際にはその理由が何であるかを教えてくれませんでした。)
なんらかの理由で本当に使用する必要がある場合はWebBrowser
、各ページを 2 回フェッチすることをお勧めします。1 回はブラウザー内で (必要なことを実行できるようにするため)、もう 1 回はブラウザーで (WebClient
混乱なく応答を取得できるようにするため)。 .
ブラウザ コントロール内のスクリプトを無効にすると、必要なすべての処理が実行される可能性もありますが、最初にブラウザ コントロールを使用する理由を説明していないため、役に立たない可能性があります...
于 2012-07-15T07:13:09.293 に答える