regex - 正規表現：否定的な後読みと否定の違い

Question

\b\w+(?<!s)\b。これは間違いなくと同じではありません\b\w+[^s]\b。に適用するJon'sと、前者が一致Jonし、後者Jon'（アポストロフィを含む）が一致します。理由を理解するのはあなたに任せます。（ヒント：\ bはアポストロフィとsの間で一致します）。後者は、「a」や「I」などの1文字の単語とも一致しません。

理由を説明できますか？

\bまた、正確に何をするのか、なぜアポストロフィとアポストロフィが一致するのかを明確にできますsか？

score 7 · Accepted Answer

\b単語の境界を意味するゼロ幅のアサーションです。これらの文字の位置（そのリンクから取得）は、単語の境界と見なされます。

文字列の最初の文字の前。最初の文字が単語文字の場合。

文字列の最後の文字の後、最後の文字が単語文字の場合。

文字列内の2つの文字の間。一方は単語文字で、もう一方は単語文字ではありません。

単語の文字はもちろん任意\wです。sは単語の文字ですが、'そうではありません。上記の例では、'との間の領域sは単語の境界です。

アンカーと境界を強調表示すると、文字列"Jon's"は次のようになります（最初と最後\bのはとと同じ位置に^あり$ます）：^Jon\b'\bs$

ネガティブルックビハインドアサーションは、文字が前に付いていない場合（つまり、最後の単語の文字がではない場合）にのみ単語の境界に(?<!s)\b一致することを意味します。そのため、特定の条件下で単語の境界を探します。ss

したがって、最初の正規表現は次のように機能します。

\b\w+最初の3文字に一致しJ o nます。
上記のようにnとの間には実際には別の単語境界があります。この単語境界は、前に。ではなく、が付いているため、この単語境界と一致します。'(?<!s)\bns
パターンの終わりに達したので、結果の一致はJonです。

補完的な文字クラスとは、文字以外の文字[^s]\bと一致し、その後に単語の境界が続くことを意味します。上記とは異なり、これは1つの文字とそれに続く単語の境界を検索します。s

したがって、2番目の正規表現は次のように機能します。

\b\w+最初の3文字に一致しJ o nます。
は文字で'はなくs（文字クラスを満たす[^s]）、その後に単語の境界（'との間s）が続くため、一致します。
パターンの終わりに達したので、結果の一致はJon'です。すでに一致する前の単語境界のため、文字sは一致しません。

score 1 · Accepted Answer

この例では、先読みと後読みを使用して「and」条件を作成できることを示しています。

\b\w+(?<!s)\b

次のように書くこともできます

\b\w*\w(?<!s)\b

それは私たちに与えます

\b\w*[^s]\b    vs    \b\w*\w(?<!s)\b

私はそれをしたので、無関係なものを無視することができます。（\bこの例では単に気を散らすものです。）

[^s]    vs    \w(?<!s)

左側では、「s」以外の任意の文字に一致させることができます

右側では、「s」以外の任意の単語文字に一致させることができます

ところで、

\w(?<!s)

書くこともできます

(?!s)\w      # Not followed by "s" and followed by \w

regex - 正規表現：否定的な後読みと否定の違い

2 に答える 2

Related

Reference