0

私は問題ごとにグループに取り組んでおり、この時点でいくつかの方向性を使用できます。合計する変数ごとに異なる (ただし値のドメインは同じ) グループ化レベルで、いくつかの変数を要約したいと考えています。疑似疑似コードでは、これが私の問題です。各empYEAR変数 (ワイド形式の年別雇用変数が 20 個ほどあります) について、その特定の年に事業所があった郡別に合計したいと思います。

データは、Dun & Bradstreet/NETS からの 20 年間にわたる事業所を表す一連のテーブルです。

すべて同じ主キーを持つ多数のフラット ファイルであるデータベースの詳細。

主キーはDUNSNUMBERで、複数のテーブルに存在します。各年について、詳細な表があります。

  • 雇用
  • 販売
  • 信用格付け(およびその他)

すべて次のように整理されています (この表は雇用を示していますが、他の変数も同様に構造化されており、年の接尾辞が付いています)。

dunsnumber|emp1990  |emp1991|emp1992|...    |emp2011|
a         | 12      |32     |31     |...    | 35    |
b         |         |2      |3      |...    | 5     |
c         | 1       |1      |       |...    |       |
d         | 40      |86     |104    |...    | 350   |
...

最終的には、次のような構造のテーブルが必要です。

county |emp1990|emp1991|emp1992|...|emp2011|sales1990|sales1991|sales1992|sales2011|...
A
B
C
...

私の現在の主な課題は次のとおりです: グループ化変数としての郡が年によって時々変化し、別のテーブルで指定されている場合、上記の表の例のように郡ごとに雇用 (または売上) をどのように合計できますか?

Rたとえば、長いデータ形式で行うのはかなり簡単なことのように思えますが、数百万のレコードがあるため、最初の処理を postgres に保持することを好みます。

4

1 に答える 1