非常に大きなタブ区切りファイル(数百万行を含む)を繰り返し処理し、そのファイル内のフィールドの値に基づいて、そのファイルのさまざまな行をペアリングしています。
mydict = defaultdict()
for line in myfile:
# Group all lines that have the same field into a list
mydict[line.field].append(line)
「mydict」は非常に大きくなるので、イテレータにしたいので、すべてをメモリに保持する必要はありません。ディクショナリにデータを入力する代わりに、ループして同じフィールド値を持つ行のリストをすべて取得できるイテレータを作成するにはどうすればよいですか?
ありがとう。