python - 特定の文字列を除外する REGEX パターン

Question

次の形式の文字列があります。

some text <br>septembar 1989<br>

そして、私はこの正規表現を使用して月と年の部分を見つけています

<br/?>(?!=b\.)(.*?\b\d{4}\b)

そして私は欲しいものを手に入れます-septembar 1989

 ただし、挿入されたときの状況があります

<br>some text <br>septembar 1989<br>

結果：some text septembar 1989

両方のケースをサポートするために既存のパターンを変更する方法を提案できますか?  どうにかしてマッチングから除外する必要があると思います.*?

score 0 · Accepted Answer

import re

ss = 'dfgqeg<br>some text <br>septembar 1989<br>'

reg = re.compile('<br(?: /)?>'
                 '(?!.+?<br(?: /)?>.+?<br(?: /)?>)'
                 '(.+?\d{4})'
                 '<br(?: /)?>')

print reg.search(ss).group(1)

。

'<br(?: /)?>'キャッチ と オカレンス

。

'(?!.+?<br(?: /)?>.+?<br(?: /)?>)'は先読みアサーションで
あり、分析されたテキストで開始する位置の後に、次の連続として記述された文字のスイートがないことを確認します。
- .+? あらゆる種類の文字ですが、この部分が発生する?とすぐに停止する必要がある注文 
-  また 
- 再び、 またはの前に停止するあらゆる種類の文字 
-  また

score 0 · Accepted Answer

私は簡単なコードを書きました。

import re
def getDate(str):
 m = re.match("[\<br>]*[\w\s]*\<br>([\w\s]*[12][0-9]{3})",str);
 return m.group(1)

print getDate("some text <br>dec 1989<br>");
print getDate("<br> some text <br>septembar 1989<br>");
print getDate("grijesh chuahan <br>feb 2009<br>");

出力：

dec 1989
septembar 1989
feb 2009

score 0 · Accepted Answer

これを試して

<br/?>([^<]+)\d{4}

[^<]は、必要な開始タグ以外のすべてに一致することを意味します。

python - 特定の文字列を除外する REGEX パターン

3 に答える 3

Related

Reference