0

私は Python と正規表現初心者です。次のステートメントによって、html ソースの全ページをコマンド ラインに取り込むことができました。

print (driver.page_source).encode('utf-8')

涼しい。しかし、そのテキストには、抽出して配列に格納する必要がある予測可能な文字列がいくつかあります。探している文字列パターンは、[4 つの数字] の後に [ハイフン] が続き、その後に 1 ~ 5 個の数字が続きます。例:

2013-80324 または 2013-03 ですが、2013-832888 ではありません

助けてくれてありがとう。

4

1 に答える 1

2
(?:^|(?<=\D))\d{4}-\d{1,5}(?=\D|$)
  • ?:非捕捉グループを示します
  • ^文字列の先頭のパターンに一致します (ただし、HTML 入力の場合はありそうにありません)
  • $文字列の末尾のパターンを計算します
  • \d数字[0-9]数字\Dを示します
  • {n}長さの量指定子ですn
  • {m,n}までの範囲の長さを定量化しますm(n両方を含む)
于 2013-09-08T08:32:10.530 に答える