次のような大きな時系列データを扱っています。
ProcesID ProcessName StartDate EndDate Duration
10 httpd 1/1/2012 1/2/1012 12 Hours
11 ftp 1/1/2012 1/2/1012 10 Hours
12 snmp 1/1/2012 1/2/1012 5 Hours
13 email 1/1/2012 1/2/1012 2 Hours
14 java 1/1/2012 1/2/1012 5 Hours
15 perl 1/1/2012 1/2/1012 7 Hours
20 php 1/1/2012 1/2/1012 6 Hours
unique( x$ProcessName
) の数が 500 を超えています。すべての をグラフ化することはできませんProcessName
。アナモリーを選んでグラフにしたいと思います。
私はサンプルを試しました:
y<-x[sample(nrow(x), 50, prob = NULL),]
ggplot(subset(x, ProcessName %in% y$ProcessName),
aes(StartDate, Duration, group=ProcessName)) + geom_point()
sample
この分析を実行するのが正しい選択かどうかわかりません。異常のみの母集団からグラフを作成するために似たようなことをした人はいますか?