バツ
Team Date Score
A 1-1-2012 80
A 1-2-2012 90
A 1-3-2012 50
A 1-4-2012 40
B 1-1-2012 100
B 1-2-2012 60
B 1-3-2012 30
B 1-4-2012 70
etc
このデータフレームを、すべての観測値と日付を見出しとして、チームごとに1行のワイドデータフレームに変換する必要があります。
xx
Team 1-1-2012 1-2-2012 1-3-2012 1-4-2012
A 80 90 50 40
B 100 60 30 70
各行の平均とsdを計算する必要があります。これは、次のように実行できます。
xx
Team 1-1-2012 1-2-2012 1-3-2012 1-4-2012 mean sd
A 80 90 50 40 75 20
B 100 60 30 70 55 10
データフレームxxに数千の行があることを考慮してください。次のように各セルの計算を行いたいと思います。
abs(xx-Mean)> 3 * SDの場合、カウンター列名を作成し、値をインクリメントします。アイデアは、各観測値を平均およびsdと比較し、特定のチームの各観測値がこれに一致する場合(abs(xx-Mean)> 3 * SD)、カウンターをインクリメントすることです。各セルを確認した後、各チームの各カウンターを調べて、カウンター値が最も高い上位10チームを取得したいと思います。基本的に、私は最も外れ値を検出しようとしています。トップ10のチーム名を取得したら、データフレームxに時系列データをグラフ化します。
これを本来よりも複雑にしないことを願っています。確かではありませんが、Rにはすでに各セルで計算を行う機能があります。これを達成するためのアイデアはありがたいですか?