0

週に 1 回サイトからダウンロードする大量の HTML があり、そこからいくつかの情報を取得する必要があり、どこから始めればよいかわかりません。

ファイル内で繰り返される約 100 個のファイルがあり、そこから 2 行だけ取​​得したいと考えています。

number2 ‑‑ computer
3 日前、12 年 6 月 22 日
11,589 ファイル / 4,363 MB

<td width="242"><div align="left"><span class="style9">
<span class="style9"><img src="pic.pn" width="32" height="32" border="0" style="vertical-align:text-top;" />number2 &nbsp;&#8209;&#8209;computer</span><br />
.....
<div align="left">License:<br />Backup:<br />Files:</div></td><td width="186" valign="top" nowrap><div align="left" nowrap>
<span class="black" nowrap><span class="black">Paid&nbsp;Unlimited</span>
<br />3&nbsp;days&nbsp;ago&nbsp;on&nbsp;Jun&nbsp;22,&nbsp;12<br />11,589 files / 4,363&nbsp;MB</span></td>
<td width="92" valign="top">&nbsp;</td></tr>
.....
</div></td>
4

2 に答える 2

0

まず、文字列からすべてのHTMLタグを削除してみてください。

>>> import re
>>> def remove_html_tags(data):
...     p = re.compile(r'<.*?>')
...     return p.sub('', data)
...
>>> stripped = remove_html_tags(unescape(html_source))
>>> stripped
u'\nnumber2 \xa0\u2011\u2011computer\n.....\nLicense:Backup:Files:\nPaid\xa0Unlimited\n3\xa0days\xa0ago\xa0on\xa0Jun\xa022,\xa01211,589 files / 4,363\xa0MB\n\xa0\n.....\n'

次に、通常の検索/分割/再照合の問題です

unescapeFredrikLundhに感謝します

これでうまくいくはずです。

于 2012-06-25T11:15:01.500 に答える