1

ページを Web スクレイピングしていますが、必要な情報を抽出するために正規表現 (苦手なもの) を使用せざるを得ません。これは、HTML の構造がほとんどないためです。HTML スニペットは次のとおりです。

LEEDS TOWN HALL<br>
Wednesday, 15 May 2013, 6:30PM - 8:30PM<br>
Tickets £7/£5 for including a glass of wine available in store or via 01234 567 890

最初に html ブレーク タグでブロックを 3 つの部分に分割し、次に正規表現を使用して必要な情報を抽出します。

最初にブロックを 3 つに分割するにはどうすればよいですか?

ありがとう

4

1 に答える 1

0

5 つのグループを持つ1 つの正規表現のみが必要です。

(?s)([^<]+).*?, (.*?) - (.*?)<br>(.*)

あなたは正規表現を作成しようとしなかったので、私は私のものを説明しようとはしていません:)

于 2013-02-21T20:40:40.653 に答える