Pythonで正規表現を使用してHTMLからデータを抽出しています。私が書いた正規表現は次のようなものです。
result = re.findall(r'<td align="left" csk="(\d\d\d\d)\d\d\d\d"><a href=.?*>(.*?)</a></td>\s+|<td align="lef(.*?)" >(.*?)</td>\s+', webpage)
これがいずれかの形式に従うtdになると仮定します-
<td align="left" csk="(\d\d\d\d)\d\d\d\d"><a href=.?*>(.*?)</a></td>\s+
また
<td align="lef(.*?)" >(.*?)</td>
これは、tdがその特定のセルで異なる形式をとることができるためです(リンクのあるデータがあるか、データがまったくない場合もあります)。
私が使用したOR条件は正しくないと思います。ORは、2つのtdタグ全体ではなく、「ちょうど」前の正規表現と「ちょうど」後の正規表現にのみ一致すると考えています。
私の質問は、ORがtdタグ全体で一致するように、どのようにグループ化するか(たとえば、paranthesisを使用)です。