BeautifulSoup を使用して Web サイト ( http://brooklynexposed.com/events/ )からコンテンツを抽出しようとしています。問題の例として、次のコードを実行できます。
import urllib
import bs4 as BeautifulSoup
url = 'http://brooklynexposed.com/events/'
html = urllib.urlopen(url).read()
soup = BeautifulSoup.BeautifulSoup(html)
print soup.prettify().encode('utf-8')
出力は、次のように html を切り取ったようです。
<li class="event">
9:00pm - 11:00pm
<br/>
<a href="http://brooklynexposed.com/events/entry/5432/2013-07-16">
Comedy Sh
</a>
</li>
</ul>
</div>
</div>
</div>
</div>
</body>
</html>
Comedy Show という名前のリストと、その後に続く最後の終了タグまでのすべての html を切り離しています。HTML の大部分は自動的に削除されます。ページが長すぎると、BeautifulSoup がページ全体の解析に失敗し、テキストを切り取るだけであるという、多くの Web サイトで同様のことに気付きました。誰かがこれに対する解決策を持っていますか? BeautifulSoup がそのようなページを処理できない場合、prettify() に似た機能を持つ他のライブラリを知っている人はいますか?