私には2つのほぼ同一の式があり、1つは良い出力を、もう1つは間違った出力を取得しています。
data/holidays/photos-2012-2013/word-another-more-more-5443/"><span class="bold">word another</span> - word</a>
regex = 'data/holidays/photos-2012-2013/.+?(\d{4})/"><span class="bold">(.+?)</span>(.+?)</a>'
word-another-more-more
、、word another
およびword
、これはすべて上記の変更です。上記は正しく出力されます。次のようなタプルのリストです。
('6642', 'word another', ' - word')
data/holidays/photos-2012-2013/word-another-more-more-5443/">word- another - <span class="bold">word another</span></a>
regex1 = 'data/holidays/photos-2012-2013/.+?(\d{4})/">(.+?)<span class="bold">(.+?)</span></a>'
上記の例では、使用されている構文が同一であるにもかかわらず、いくつかのごみコードが出力されます。出力もタプルを含むリストですが、不要なコードでいっぱいです。
2番目の正規表現の何が問題になっているのかわかりますか?