一致する個人レベルのデータセットを持たない、不十分に文書化された人月データセットを継承しました。人月データセットのどの変数が実際に人レベルの変数 (特定の ID を持つすべての観測値で一定) であるかを判断したいと考えています。単純な例:
id month dob race tx weight
1 1 4058 1 1 105
1 2 4058 1 1 107
1 3 4058 1 2 108
2 1 1622 2 1 153
2 2 1622 2 3 153
2 3 1622 2 2 153
この例では、生年月日と人種は個人内で固定されていますが、tx と体重は個人内で月ごとに異なります。
私は不器用な解決策を思いつきました: proc means を使用してすべての数値変数の標準偏差を id で計算し、それらの標準偏差の最大値を取ります。変数の std の最大値が 0 の場合、個人内でその列の分散はなく、その変数に固定 (または個人レベル) としてフラグを立てることができます。
何百もの変数のどれが各個人内で固定されており、どれが個人の観察内で変化するかを判断するための、より単純な統計テストが欠けているように感じます。助言がありますか?
pT