python - 先読みアサーション

Question

Python で正規表現を使用して、有効なドメイン名内のラベルを照合しようとしています。

DOMAIN_LABEL_RE = """
\A(
(?<![\d\-]) # cannot start with digit or hyphen, looking behind
([a-zA-Z\d\-]*?)
([a-zA-Z]+)# need at least 1 letter
([a-zA-Z\d\-]*?)
(?!\-) # cannot end with a hyphen, looking ahead
)\Z
"""

ラベルの先頭または末尾のハイフンを避けるために、肯定的および否定的なアサーションを使用しようとしています。

ただし、文字列 "-asdf" は引き続き一致します: e.match(DOMAIN_LABEL_RE, "-asdf", re.VERBOSE).group()

なぜまだ一致しているのかわかりません。

助けてくれてありがとう。

M.

score 3 · Accepted Answer

\A文字列の先頭に一致し、その位置の前にハイフンがない場合は、次の後読みが一致します。

あなたは文字列の先頭にいます、もちろんその前に文字はありません！

代わりに負の先読みを使用してください：(?![\d\-])。

文字列の終わりについても同様です。代わりにネガティブルックビハインドを使用する必要があります(?<!\-)。

現在の式と同等の式は次のようになると思います。

DOMAIN_LABEL_RE = """
(?i               # case insensitive
  \A(
    ([a-z])       # need at least 1 letter and cannot start with digit or hyphen
    ([a-z\d-]*?)
    (?<!-)        # cannot end with a hyphen
  )\Z
)
"""

注：式が実際に解決しようとしている問題に適しているかどうかは確認していません。

python - 先読みアサーション

1 に答える 1

Related

Reference