regex - grep/egrep を使用して、ファイル内で繰り返される単語を見つけるにはどうすればよいですか?

Question

unix (bash) で egrep (または grep -e) を使用して、ファイル内で繰り返される単語を見つける必要があります。

私は試した：

egrep "(\<[a-zA-Z]+\>) \1" file.txt

と

egrep "(\b[a-zA-Z]+\b) \1" file.txt

しかし、何らかの理由で、これらはそうではない繰り返しであると見なされます! たとえば、単語境界条件\> orにもかかわらず、文字列 "word words" が基準を満たしていると見なし\bます。

score 3 · Accepted Answer

私が使う

pcregrep -M '(\b[a-zA-Z]+)\s+\1\b' *

ドキュメントにそのようなエラーがないかチェックします。これは、重複した単語の間に改行がある場合にも機能します。

説明：

4 に答える 4