python - テキストファイル内の重複行を見つけて印刷するにはどうすればよいですか?

Question

約 1,200 行のテキストファイルがあります。それらのいくつかは重複しています。

ファイル内の重複行を見つけて (ただし、大文字と小文字を区別する必要はありません)、その行のテキストを画面に出力して、探し出すことができるようにするにはどうすればよいでしょうか? それらなどを削除したくありません。それらがどの行であるかを見つけるだけです。

score 25 · Accepted Answer

これは、セットを使用すると非常に簡単です。

with open('file') as f:
    seen = set()
    for line in f:
        line_lower = line.lower()
        if line_lower in seen:
            print(line)
        else:
            seen.add(line_lower)

score 9 · Accepted Answer

1200行しかないので、次のものも使用できますcollections.Counter()。

>>> from collections import Counter

>>> with open('data1.txt') as f:
...     c=Counter(c.strip().lower() for c in f if c.strip()) #for case-insensitive search
...     for line in c:
...         if c[line]>1:
...             print line
...

次のような場合data1.txt:

ABC
abc
aBc
CAB
caB
bca
BcA
acb

出力は次のとおりです。

cab
abc
bca

score 2 · Accepted Answer

大文字と小文字を区別しない重複の検索

これは行番号を提供しませんが、重複行のリストを提供し、さらに調査することができます。例えば：

tr 'A-Z' 'a-z' < /tmp/foo | sort | uniq -d

サンプルデータファイル

# /tmp/foo
one
One
oNe
two
three

上記のパイプラインは、次の結果を正しく生成します。

1

行番号を見つける

次に、次のように関連する行番号を grep できます。

grep --ignore-case --line-number one /tmp/foo

python - テキスト ファイル内の重複行を見つけて印刷するにはどうすればよいですか?

3 に答える 3

大文字と小文字を区別しない重複の検索

サンプルデータファイル

行番号を見つける

Related

Reference

python - テキストファイル内の重複行を見つけて印刷するにはどうすればよいですか?