1

大きなタブ区切りファイルがあります。ファイル全体の 3 列目にある文字列の出現回数をカウントしたいと考えています。全部で数十万の異なる文字列が存在する可能性があります。Counter はこれに適していると思いましたが、私が望むものに非常に近いです:

from collections import Counter
import csv

with open('samfile.sam') as samFile:
    sam = csv.reader(samFile, dialect='excel-tab')
    c=Counter()
    for row in sam:
        c.update(row[2].split())

問題は、一部の文字列にスペースが含まれていることです。そして、それを 2 つの文字列に分解し、それらを数えています。したがって、これが私が興味を持っているコラムである場合:

foo
bar
foo bar

カウンターは 2 foo、2 bar ですが、1 foo、1 bar、1 foo bar が必要です。助言がありますか ?カウンターを使わなくてもいいので、それが一番いいと思ったのですが、もっと効率的な方法があればぜひ聞きたいです。

4

1 に答える 1