ページの html を簡単に削除しようとしています (仕事なので、残念ながらリンクを提供できません) が、html の一部しか返されません。このサイトの他のページは、期待どおりに動作しているようです。
urllib2 が javascript を処理しない ( urllib2 が完全な Web ページを返さない) ことは理解していますが、Firefox ブラウザーで JavaScript を無効にすると、ページが正しく読み込まれます。
次に、この投稿で @Jed Smith と @John Weldon の回答 ( urllib2 は HTTP 応答全体を取得しない ) を試しましたが、うまくいきませんでした。urllib2.build_opener(proxy, urllib2.HTTPCookieProcessor(self.cj)).open(url)
プロキシとクッキーの代わりに使用urllib2.urlopen(url)
しましたが、それが違いを生んだかどうかはわかりません.
返される html は、合計 1634 行あるソース コードの 803 行目でランダムに切り取られているようです。
すべてのhtmlコードを取得する方法はありますか?