解析する必要がある非常に大きなデータ ファイルがあります。私はいくつかのグループ関数を作成し、辞書を使用して、小さなデータ セットを機能させることができました。
ただし、より大きなデータセットは機能しません。csv ファイルでのデータセットの外観は次のとおりです。
123.0001, 'axis a', 'axis b', 'axis c'
123.0002, 'axis a', 'axis b', 'axis c'
123.0003, 'axis a', 'axis b', 'axis c'
123.0003, 'axis a', 'axis b', 'axis c'
123.0009, 'axis a', 'axis b', 'axis c'
ファイルは約20GBです。パンダを使用してこのファイルをロードし、間隔で時間ごとにグループ化したいと考えています。123.0001 はエポック時間で、何百もあります。ただし、それらは線形ではありません。つまり、数秒スキップする可能性があります。また、同じ 1 秒間にいくつかの異なるイベントが記録される場合もあります。さらにはマイクロ秒。
それらを1分間隔のチャンクにグループ化し、設定された間隔内にいくつあるかを数えたいとします。
パンダを使用してどうすればよいですか?
注、標準の辞書とリストを使用して、パンダなしでこれを既に機能させています。ただし、大規模なデータセットの結果を生成するには、約 3 時間かかります。
より良い解決策がある場合は、お知らせください。