私は完全に困惑しています。大きなテーブルから削り取った HTML のブロックがあります。次のようになります。
<td align="left" class="page">Number:\xc2\xa0<a class="topmenu" href="http://www.example.com/whatever.asp?search=724461">724461</a> Date:\xc2\xa01/1/1999 Amount:\xc2\xa0$2.50 <br/>Person:<br/><a class="topmenu" href="http://www.example.com/whatever.asp?search=LAST&searchfn=FIRST">LAST,\xc2\xa0FIRST </a> </td>
(実際にはもっと悪く見えましたが、改行をたくさん正規表現しました)
行を取り出して、日付/金額の行を分割する必要があります。開始する場所は、HTML のそのブロックの子を見つけることだったようです。ブロックは文字列です。これは、正規表現が返してくれたためです。だから私はした:
text_soup = BeautifulSoup(text)
text_children = text_soup.find('td').childGenerator()
私は子供たちを反復することができます
for i,each in enumerate(text_soup.find('td').childGenerator()):
print type(each)
print i, ":", each
しかし、一緒ではありません
for i, each in enumerate(text_children):
...etc
これらは同じはずです。だから私は混乱しています。