私はテキスト(Python 2.6のコード)を持っています:
txt="foo<br><br><b>bar :</b><br>foo<br><b>bar :</b>"
次に、任意のタグ(この例では<b>タグ)の内容を抽出しようとしました。
r=re.compile("<%s.*?>(.+?)</%s>" % ("b","b"), re.I|re.S)
これはほとんど機能しますが、出力は私のトリッキーなテキストに期待したものではありません。
>>>re.findall(r,txt)
['<br><b>bar :', 'foo<br><b>bar :']
いずれにせよ、HTMLタグからテキストを抽出するための正規表現を1つ書くことは可能ですか?