python - Urllib2がページ上のすべてのhtmlを読み取っていない

翻译自：https://stackoverflow.com/questions/14823499 2013-02-12T00:26:09.657

353 次

ページの html を簡単に削除しようとしています (仕事なので、残念ながらリンクを提供できません) が、html の一部しか返されません。このサイトの他のページは、期待どおりに動作しているようです。

urllib2 が javascript を処理しない ( urllib2 が完全な Web ページを返さない) ことは理解していますが、Firefox ブラウザーで JavaScript を無効にすると、ページが正しく読み込まれます。

次に、この投稿で @Jed Smith と @John Weldon の回答 ( urllib2 は HTTP 応答全体を取得しない ) を試しましたが、うまくいきませんでした。urllib2.build_opener(proxy, urllib2.HTTPCookieProcessor(self.cj)).open(url)プロキシとクッキーの代わりに使用urllib2.urlopen(url)しましたが、それが違いを生んだかどうかはわかりません.

返される html は、合計 1634 行あるソースコードの 803 行目でランダムに切り取られているようです。

すべてのhtmlコードを取得する方法はありますか?

python - Urllib2がページ上のすべてのhtmlを読み取っていない

0 に答える 0

Related

Reference