Python 2.5 コードは次のとおりです (単語fox
を link<a href="/fox">fox</a>
に置き換え、リンク内での置き換えを回避しました)。
import re
content="""
<div>
<p>The quick brown <a href='http://en.wikipedia.org/wiki/Fox'>fox</a> jumped over the lazy Dog</p>
<p>The <a href='http://en.wikipedia.org/wiki/Dog'>dog</a>, who was, in reality, not so lazy, gave chase to the fox.</p>
<p>See "Dog chase Fox" image for reference:</p>
<img src='dog_chasing_fox.jpg' title='Dog chasing fox'/>
</div>
"""
p=re.compile(r'(?!((<.*?)|(<a.*?)))(fox)(?!(([^<>]*?)>)|([^>]*?</a>))',re.IGNORECASE|re.MULTILINE)
print p.findall(content)
for match in p.finditer(content):
print match.groups()
output=p.sub(r'<a href="/fox">\3</a>',content)
print output
出力は次のとおりです。
[('', '', '', 'fox', '', '.', ''), ('', '', '', 'Fox', '', '', '')]
('', '', None, 'fox', '', '.', '')
('', '', None, 'Fox', None, None, None)
Traceback (most recent call last):
File "C:/example.py", line 18, in <module>
output=p.sub(r'<a href="fox">\3</a>',content)
File "C:\Python25\lib\re.py", line 274, in filter
return sre_parse.expand_template(template, match)
File "C:\Python25\lib\sre_parse.py", line 793, in expand_template
raise error, "unmatched group"
error: unmatched group
後方参照が機能しない理由がわかりません
\3
。(?!((<.*?)|(<a.*?)))(fox)(?!(([^<>]*?)>)|([^>]*?</a>))
http://regexr.com?317bnを参照してください。これは驚くべきことです。最初の否定的な先読みは(?!((<.*?)|(<a.*?)))
私を困惑させます。私の意見では、それは機能しないはずです。最初に見つかった一致を取得します。 にfox
はgave chase to the fox.</p>
、<a href='http://en.wikipedia.org/wiki/Dog'>dog</a>
where と一致する場所があり((<.*?)|(<a.*?))
、否定先読みとして FALSE を返す必要があります。私は自分自身を明確に表現しているかどうか確信が持てません。
どうもありがとう!
(注: BeautifulSoup を使うのは嫌いです。独自の正規表現を書くのが好きです。ここにいる多くの人が、正規表現は HTML 処理用ではないと言うでしょうが、これは小さなプログラムなので、BeautifulSoup よりも正規表現を好みます)