python - Python で BeautifulSoup を使用して HTML からキャリッジリターンを削除する

Question

Web ページからデータを解析していますが、テーブルに不要なキャリッジリターンが含まれていることがあり、問題が発生しています。改行を削除したいのですが、単純な strip() が機能しません。

次のコードがあります。

html = """
<table>
<tr>
<td>
Commercial, financial and agricultural</td>
<td>
791
</td>
</tr>
</table>
"""

soup = BeautifulSoup(''.join(html))
table = soup.find('table')

rows = table.findAll('tr')
for tr in rows:
    rowdata = ''
    columns = tr.findAll('td')
    for td in columns:
        cell = ''.join(td.findAll(text=True))
        cell.strip()
        rowdata = rowdata+'|'+cell
    print rowdata

出力は次のとおりです。

|
Commercial, financial and agricultural|
791

出力を次のようにしたい: |商業、金融、農業|791

ストリップ関数が改行を削除しないのはなぜですか?

score 3 · Accepted Answer

>>> cell = 'text\n'
>>> cell.strip()
'text'
>>> rowdata = '|' + cell
>>> print rowdata
|text

>>> rowdata = '|' + cell.strip()
>>> print rowdata
|text

Strip は戻り値を削除していますが、strip は値を返します。セルを何にも等しく設定しません。試してみてくださいrowdata = rowdata + '|' + cell.strip()。

python - Python で BeautifulSoup を使用して HTML からキャリッジ リターンを削除する

1 に答える 1

Related

Reference

python - Python で BeautifulSoup を使用して HTML からキャリッジリターンを削除する