カスタムレポートの作成に関連するデータ分析のワークフローについて、誰かが何か知恵を持っていますか?ユースケースは基本的にこれです:
クライアントは、データ分析を使用するレポートを委託します。たとえば、人口推計や水域の関連マップなどです。
アナリストは、いくつかのデータをダウンロードし、データを変更して結果を保存します(たとえば、ユニットあたりの人口の列を追加したり、地区の境界に基づいてデータをサブセット化したりします)。
アナリストは、(2)で作成されたデータを分析し、目標に近づきますが、より多くのデータが必要であることがわかったため、(1)に戻ります。
テーブルとグラフィックがQA/QCを満たし、クライアントを満足させるまで、繰り返しすすぎます。
表とグラフィックを組み込んだレポートを作成します。
来年、幸せなクライアントが戻ってきて、アップデートを望んでいます。これは、仕様が変更されない限り、新しいダウンロード(たとえば、昨年の建築許可を取得)によってアップストリームデータを更新し、[RECALCULATE]ボタンを押すのと同じくらい簡単なはずです。
現時点では、ディレクトリを開始して、できる限りアドホックに作成しています。より体系的なアプローチが必要なので、誰かがこれを理解してくれることを期待しています...スプレッドシート、SQL、ARCGIS、R、およびUnixツールを組み合わせて使用しています。
ありがとう!
PS:
.RData
以下は、さまざまな中間データセット(サフィックス付き)およびスクリプト(サフィックス付き)への依存関係をチェックする基本的なMakefileです.R
。Makeはタイムスタンプを使用して依存関係をチェックするため、touch ss07por.csv
このファイルが依存するすべてのファイル/ターゲットよりも新しいことがわかり、それに応じて更新するために指定されたスクリプトを実行します。これは、SQLデータベースに入れるためのステップや、sweaveのようなテンプレート言語のためのステップを含め、まだ進行中の作業です。Makeは構文のタブに依存しているため、切り取って貼り付ける前にマニュアルを読んでください。楽しんでフィードバックを送ってください!
http://www.gnu.org/software/make/manual/html_node/index.html#Top
R = / home / wsprague / R-2.9.2 / bin / R persondata.RData:ImportData.R ../../DATA/ss07por.csv Functions.R $ R --slave -f ImportData.R persondata.Munged.RData:MungeData.R persondata.RData Functions.R $ R --slave -f MungeData.R report.txt:TabulateAndGraph.R persondata.Munged.RData Functions.R $ R --slave -f TabulateAndGraph.R> report.txt