一日中解決しようとしている小さな問題があります。簡単だと思いますが、答えがわかりません。Pythonで書かれたscrapyを使っています。いくつかの div コンテンツからプロデューサー名を解析する必要があります。
divのスキームは次のとおりです。
<div id=info>...
<html tag, can be p,strong,span,etc>
Producer(sometimes as Supplier): some code
</end tag>...
</div>
次のコードを使用します。
l.add_xpath('producer_name', "//div[@class='info']", re=u'Producer:\s*(.*)\s?</p>')
「プロデューサー」または別の終了タグの代わりに「サプライヤー」が書かれているページが見つかるまで、すべて正常に機能します。
だから私は次のようなものを試しました:
l.add_xpath('producer_name', "//div[@class='info']", re=u'[Supplier|Producer]:\s*(.*)\s?[</p>|<br>|</span>|</strong>]')
上記のコードは機能しません。