次の形式のデータがあります。
<abc> <anything2> <anything3>.
<_901> <first> <something1>.
<_905> <second> <something2>.
<_910> <anything> <something3>.
<_901> <second> <something4>.
<_905> <first> <something6>.
<_901> <third> <something5>.
<_905> <third> <something7>.
ここで、最初の列に対応するすべての情報と、2 番目の列の (1 番目、2 番目、3 番目) の値をグループ化し、次の形式で集計情報を取得します。
<abc> <anything2> <anything3>.
<_901> <something1> <something4> <something5>.
<_905> <something6> <something2> <something7>.
<_910> <anything> <something3>.
Python辞書を使用してこれを達成しようとしました。しかし、私は2テラバイトのファイルを持っているので. 私のプロシージャはメモリ不足で、非常に非効率的です。これを達成するためのPythonでより高速な方法はありますか。はいの場合、誰かが例を挙げて説明してもらえますか?