Python と BeautifulSoup を使用して、HTML からテキストを抽出しています。フォームのテキストを含むいくつかのhtmlがあります
<h3><b> Abc </b><b> DEF </b> </h3>
繰り返される b タグを削除したいと思います。これを行う簡単な方法はありますか?
Python と BeautifulSoup を使用して、HTML からテキストを抽出しています。フォームのテキストを含むいくつかのhtmlがあります
<h3><b> Abc </b><b> DEF </b> </h3>
繰り返される b タグを削除したいと思います。これを行う簡単な方法はありますか?
bs4の場合、これはうまくいくようです
In [4]: soup.h3
Out[4]: <h3><b> Abc </b><b> DEF </b> </h3>
In [5]: soup.h3.text
Out[5]: u' Abc DEF '
ここでドキュメントとパッケージをチェックしてください: https://beautiful-soup-4.readthedocs.org/en/latest/ https://pypi.python.org/pypi/beautifulsoup4