0

この 2 ページのそれぞれの時間で(Margauxまたは)を抽出する適切な正規表現を見つけるのを手伝ってくれませんか:Saint-Julien

1ページ目:Margaux, Rouge

2ページ目:2ème Vin, Saint-Julien, Rouge

私のコード:

item ["appelation"] = res.select('.//div[@class="pro_col_right"]/div[@class="pro_blk_trans"]/div[@class="pro_blk_trans_titre"]/text()').re(r'\s*\w+\-\w+\-\w+|\w+\-\w+|\[^Rouge,Blanc]')

私の正規表現はマルゴーを見つけることができませんでしたが、サンジュリアンを抽出します!!

4

1 に答える 1

0

なぜこれが必要なのかわかりませんsが、あなたのhtmlファイルだとすると、この正規表現はあなたが探しているものを見つけるでしょう..

import re
m = re.search(r"\<div\ class=\"pro_blk_trans_titre\"\>(.*)\</div\>", s)
print(m.group(1).strip().encode("utf8"))

# page1: b'Margaux, Rouge'
# page2: b'2\xc3\xa8me Vin, Saint-Julien, Rouge'
于 2013-07-25T12:42:31.750 に答える