PythonでBeautifulSoupを使用して、そのようなhtmlからhtmlを解析したいと思います
<p><b>Background</b><br />x0</p><p>x1</p>
<p><b>Innovation</b><br />x2</p><p>x3</p><p>x4</p>
<p><b>Activities</b><br />x5</p><p>x6</p>"
この結果に:
Background: x0, x1
Innovation: x2, x3, x4
Activities: x5, x6
以下のpythonスクリプトを使用するのにうんざりしています:
from bs4 import BeautifulSoup
htmltext = "<p><b>Background</b><br />x0</p><p>x1</p>
<p><b>Innovation</b><br />x2</p><p>x3</p><p>x4</p>
<p><b>Activities</b><br />x5</p><p>x6</p>"
html = BeautifulSoup(htmltext)
for n in html.find_all('b'):
title_name = n.next_element
title_content = n.nextSibling.nextSibling
print title_name, title_content
ただし、これしか取得できません。
Background: x0
Innovation: x2
Activities: x5
コメントをお待ちしております。ご提案をお待ちしております。