私は問題ごとにグループに取り組んでおり、この時点でいくつかの方向性を使用できます。合計する変数ごとに異なる (ただし値のドメインは同じ) グループ化レベルで、いくつかの変数を要約したいと考えています。疑似疑似コードでは、これが私の問題です。各empYEAR
変数 (ワイド形式の年別雇用変数が 20 個ほどあります) について、その特定の年に事業所があった郡別に合計したいと思います。
データは、Dun & Bradstreet/NETS からの 20 年間にわたる事業所を表す一連のテーブルです。
すべて同じ主キーを持つ多数のフラット ファイルであるデータベースの詳細。
主キーはDUNSNUMBER
で、複数のテーブルに存在します。各年について、詳細な表があります。
- 雇用
- 郡
- 販売
- 信用格付け(およびその他)
すべて次のように整理されています (この表は雇用を示していますが、他の変数も同様に構造化されており、年の接尾辞が付いています)。
dunsnumber|emp1990 |emp1991|emp1992|... |emp2011|
a | 12 |32 |31 |... | 35 |
b | |2 |3 |... | 5 |
c | 1 |1 | |... | |
d | 40 |86 |104 |... | 350 |
...
最終的には、次のような構造のテーブルが必要です。
county |emp1990|emp1991|emp1992|...|emp2011|sales1990|sales1991|sales1992|sales2011|...
A
B
C
...
私の現在の主な課題は次のとおりです: グループ化変数としての郡が年によって時々変化し、別のテーブルで指定されている場合、上記の表の例のように郡ごとに雇用 (または売上) をどのように合計できますか?
R
たとえば、長いデータ形式で行うのはかなり簡単なことのように思えますが、数百万のレコードがあるため、最初の処理を postgres に保持することを好みます。