Hadoop クラスターで Pig ジョブを実行し、一連のデータを R がコホート分析を実行できるように処理しました。次のスクリプトがあり、最後の行から 2 番目の時点で、次の形式のデータがあります。
> names(data)
[1] "VisitWeek" "ThingAge" "MyMetric"
VisitWeek は日付です。ThingAge と MyMetric は整数です。
データは次のようになります。
2010-02-07 49 12345
私がこれまでに持っているスクリプトは次のとおりです。
# Load ggplot2 for charting
library(ggplot2);
# Our file has headers - column names
data = read.table('weekly_cohorts.tsv',header=TRUE,sep="\t");
# Print the names
names(data)
# Convert to dates
data$VisitWeek = as.Date(data$VisitWeek)
data$ThingCreation = as.Date(data$ThingCreation)
# Fill in the age column
data$ThingAge = as.integer(data$VisitWeek - data$ThingCreation)
# Filter data to thing ages lt 10 weeks (70 days) + a sanity check for gt 0, and drop the creation week column
data = subset(data, data$ThingAge <= 70, c("VisitWeek","ThingAge","MyMetric"))
data = subset(data, data$ThingAge >= 0)
print(ggplot(data, aes(x=VisitWeek, y=MyMetric, fill=ThingAge)) + geom_area())
この最後の行は機能しません。私は多くのバリエーション、バー、ヒストグラムを試しましたが、いつものように R ドキュメントは私を打ち負かします。
標準の Excel スタイルの積み上げ面グラフ (ThingAge ごとに 1 つの時系列を x 軸に週単位で積み上げ、y 軸に日付) を表示したいと考えています。この種のグラフの例は次のとおりです: http://upload.wikimedia.org/wikipedia/commons/a/a1/Mk_Zuwanderer.png
ここのドキュメントを読みました: http://had.co.nz/ggplot2/geom_area.htmlとhttp://had.co.nz/ggplot2/geom_histogram.htmlおよびこのブログhttp://chartsgraphs.wordpress。 com/2008/10/05/r-lattice-plot-beats-excel-stacked-area-trend-chart/ですが、うまく機能させることができません。
どうすればこれを達成できますか?