長い形式のデータをワイドに解析する最良の方法は、python であると思います。私は以前、この種のタスクを R で行っていましたが、ファイルが 1 GB 以上になる可能性があるため、実際には時間がかかります。ここにいくつかのダミーデータがあります:
Sequence Position Strand Score
Gene1 0 + 1
Gene1 1 + 0.25
Gene1 0 - 1
Gene1 1 - 0.5
Gene2 0 + 0
Gene2 1 + 0.1
Gene2 0 - 0
Gene2 1 - 0.5
しかし、各位置のストランドのスコアを合計した広い形式にしたいと思います。これが私が望む出力です:
Sequence 0 1
Gene1 2 0.75
Gene2 0 0.6
このような問題を概念的に攻撃する方法についてのヘルプは、本当に役に立ちます。