2

私は、大きなデータセットをflowstratesパッケージ内で分析するために必要な形式に変換しようと取り組んでいます。

私が現在持っているのは、出発地と目的地のポイントを含む大きなファイル(600kトリップ)です。

フォーマットは次のようなものです。

tripID   Month start_pt   end_pt
1        June   1           3
2        June   1           3
3        July   1           5
4        July   1           7
5        July   1           7

生成できるようにする必要があるのは、次のような形式の単位時間(たとえば、月)ごとのトリップカウントを持つファイルです。

start_pt   end_pt  June July August ... December
1          3       2    0    5          9
1          5       0    1    4          4
1          7       0    2    0          0

データを月ごとに事前にセグメント化してから、出発地と目的地のペアごとにカウントを生成するのは簡単ですが、事前にセグメント化されたデータのチャンクはそれぞれサイズが大きく異なるため、すべてを元に戻すとさまざまな問題が発生します。したがって、データセット全体に対して一度にこれを行う必要があるようです。

このタイプの処理を行うためのパッケージはありますか?SQLやSQLiteのようなものでこれを行う方が簡単でしょうか?

助けてくれてありがとう。

4

1 に答える 1

3

パッケージを使用すると、reshape2これをかなり簡単に行うことができます。

あなたのデータdat

library("reshape2")
dcast(dat, start_pt+end_pt~Month, value.var="tripID", fun.aggregate=length)

start_ptこれにより、 / end_pt/組み合わせごとに 1 つのエントリが得られますMonth。その値は、その組み合わせがあったケースの数 (tripIDそのセットの長さ) です。

于 2012-10-15T22:08:32.483 に答える