urllib2 と beautifulsoup で Web をクロールしようとしています。しかし、私のコードは次のようないくつかのリンクでメモリ不足になりました:
http://downloads.graboidvideo.com/download_filter.php?file=GraboidVideoSetup.pkg&platform=Mac
動画のダウンロードリンクです。urllib2.urlopen() を使用すると、ビデオがダウンロードされますが、これは私が望んでいるものではありません。URLのhtmlのみをダウンロードする方法はありますか? URLがビデオファイルまたは他のファイルを参照している場合、基本的にスキップしたいのですが、その方法がわかりません。
私のコードは次のとおりです。
toy_url=http://downloads.graboidvideo.com/download_filter.php?file=GraboidVideoSetup.pkg&platform=Mac
headers = {'USER-Agent':'crawltaosof'}
req = urllib2.Request(url, None,headers)
page = urllib2.urlopen(req,timeout=0.51).read()