urllib と beautifulsoup を使用して Web サイトから情報を収集する方法を学び始めました。このページから (コード内の) すべてのテキストを取得して、テキスト ファイルに入れたいと考えています。
import urllib
from bs4 import BeautifulSoup as Soup
base_url = "http://www.galactanet.com/oneoff/theegg_mod.html"
url = (base_url)
soup = Soup(urllib.urlopen(url))
print(soup.get_text())
これを実行すると、テキストが取得されますが、すべての文字の間にスペースを入れて出力され、HTML が表示されますが、理由は不明です。
i n ' > Y u p . B u t d o n t f e e
そのように、何かアイデアはありますか?
また、この情報をテキスト ファイルに入れるにはどうすればよいでしょうか。
(beautifulsoup4 を使用し、ubuntu 12.04 および python 2.7 を実行)
ありがとうございました :)