Pythonを使用して、ソースが非常に大きいWebページ(一部のユーザーのFacebookページ)でデータをクロールしたいと思います。
URLがクロールしようとしているURLだとします。次のコードを実行します。
import urllib2
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
データには、クロールしているページのソースが含まれているはずですが、何らかの理由で、ページのソースと直接比較したときに使用できるすべての文字が含まれているわけではありません。何が間違っているのかわかりません。クロールしようとしているページが最近更新されていないことはわかっているので、ごく最近のデータが欠落していることが原因ではありません。
誰かが手がかりを持っていますか?
編集:私が見逃している情報の種類は次のようなものです:
<code class="hidden_elem" id="up82eq_33"><!-- <div class="mbs profileInfoSection"><div class="uiHeader uiHeaderTopAndBottomBorder uiHeaderSection infoSectionHeader"><div class="clearfix uiHeaderTop"><div><h4 tabindex="0" class="uiHeaderTitle">Basic Information</h4></div></div></div><div class="phs"><table class="uiInfoTable mtm profileInfoTable uiInfoTableFixed"><tbody><tr><th class="label">Networks</th><td class="data"><div class="uiCollapsedList uiCollapsedListHidden" id="up82eq_32"><span class="visible">XXXX</span></div></td></tr></tbody></table></div></div> --></code>
基本的に私が興味を持っている分野です。私が驚いたのは、すべてではありませんが、いくつかの分野を取得できることです。