Pythonを使用してhtmlブロックをテキストに変換しようとしています。
入力:
<div class="body"><p><strong></strong></p>
<p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>
必要な出力:
Lorem ipsum dolorはアメットに座り、consectetueradipiscingelitです。Aenean commodo ligulaegetdolor。アエネアンマッサ
Consectetueradipiscingelit。いくつかのリンクAeneanコモドリグラegetdolor。アエネアンマッサ
Aenean massa.Lorem ipsum dolor sit amet、consectetueradipiscingelit。Aenean commodo ligulaegetdolor。アエネアンマッサ
Lorem ipsum dolorはアメットに座り、consectetueradipiscingelitです。Aenean commodo ligulaegetdolor。アエネアンマッサ
Consectetueradipiscingelit。Aenean commodo ligulaegetdolor。アエネアンマッサ
html2text
私はあまり成功せずにモジュールを試しました:
#!/usr/bin/env python
import urllib2
import html2text
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://example.com/page.html').read())
txt = soup.find('div', {'class' : 'body'})
print(html2text.html2text(txt))
オブジェクトは上記txt
のhtmlブロックを生成します。テキストに変換して画面に印刷したいのですが。