python - findAll 関数 BeautifulSoup

翻译自：https://stackoverflow.com/questions/17136692 2013-06-16T19:02:43.943

1898 次

タグ間に格納されているテキスト要素を解析しようとしています<td>。たとえば、次のようになります。

<tr>
<td>Trading Hours</td>
<td><b>Monday</b> <br />
London - 23:00 Sunday - 23:00 Monday<br />
New York - 18:00 Sunday - 18:00 Monday<br />
Chicago - 17:00 Sunday - 17:00 Monday<br />
<br />
<b>Tuesday-Friday</b> <br />
London - 01:00 - 23:00<br />
New York - 20:00 - 18:00<br />
Chicago - 19:00 - 17:00<br />
</td>
</tr>

この単純な例では、2 つのタグしかなく<td>、変数trが html コードのブロック全体を格納するとします。テキストを抽出するための私のロジックは次のとおりです(<tr>または<br>タグなし):

for td in tr.findAll('td'):
    row.append((td.find('td', text = True)).strip().strip('\n'))

問題:forループが最初の<td>タグを認識しますが、2 番目のタグを認識しません。どうすればこれを改善できますか?

python - findAll 関数 BeautifulSoup

1 に答える 1

Related

Reference