したがって、一致するものが1行を超えない限り、データの抽出に大きな成功を収めました。複数の行をまたぐ場合は、(一見)胸焼けがあります...ここにHTMLデータのスニペットがあります私は得る:
<tr>
<td width=20%>3 month
<td width=1% class=bar>
<td width=1% nowrap class="value chg">+10.03%
<td width=54% class=bar>
<table width=100% cellpadding=0 cellspacing=0 class=barChart>
<tr>
「+10.03%」という数字が気になり、
<td width=20%>3 month
「+10.03%」が欲しいということを教えてくれるパターンです。
だから私はこれまでPythonでこれを持っています:
percent = re.search('<td width=20%>3 month\r\n<td width=1% class=bar>\r\n \r\n<td width=1% nowrap class="value chg">(.*?)', content)
変数 content には、検索しているすべての html コードが含まれています。これは私にはうまくいかないようです...アドバイスをいただければ幸いです!re.compile() と re.multiline() について話している他のいくつかの投稿を読みましたが、それらがどのように機能するか理解していないため、ほとんど運がありません...