私は、大きなデータセットをflowstratesパッケージ内で分析するために必要な形式に変換しようと取り組んでいます。
私が現在持っているのは、出発地と目的地のポイントを含む大きなファイル(600kトリップ)です。
フォーマットは次のようなものです。
tripID Month start_pt end_pt
1 June 1 3
2 June 1 3
3 July 1 5
4 July 1 7
5 July 1 7
生成できるようにする必要があるのは、次のような形式の単位時間(たとえば、月)ごとのトリップカウントを持つファイルです。
start_pt end_pt June July August ... December
1 3 2 0 5 9
1 5 0 1 4 4
1 7 0 2 0 0
データを月ごとに事前にセグメント化してから、出発地と目的地のペアごとにカウントを生成するのは簡単ですが、事前にセグメント化されたデータのチャンクはそれぞれサイズが大きく異なるため、すべてを元に戻すとさまざまな問題が発生します。したがって、データセット全体に対して一度にこれを行う必要があるようです。
このタイプの処理を行うためのパッケージはありますか?SQLやSQLiteのようなものでこれを行う方が簡単でしょうか?
助けてくれてありがとう。