2

重複の可能性:
統計分析とレポート作成のワークフロー

私はRを使ってプログラミングを始めてからそれほど長くはありませんが、誰かが私にいくつかのヒントを教えてくれることを望んでいたプロジェクト組織の質問にぶつかっています。私が行う分析の多くはアドホックであることがわかりました。つまり、何かを実行し、結果について考え、それをtweekして、さらに実行します。これは、コーディングの前に実行したいこと全体について考えるC++のような言語とは概念的に異なります。それは通訳言語の大きな利点です。ただし、発生する問題は、保存する.RDataファイルが大量にあるためsource、毎回スクリプトを実行する必要がないことです。1か月後にプロジェクトに戻って、各ファイルが何に関連付けられているかを知ることができるように、プロジェクトを整理する方法について誰かが良いアイデアを持っていますか?

これは、私が推測するドキュメントの質問のようなものです。プロジェクト全体を各レッグで文書化し、不要になったが調査の副産物であったファイルのクリーンアップに積極的に取り組む必要がありますか?これは私の現在のシステムですが、少し面倒です。他に何か提案はありますか?

以下のコメントによると:私が避けようとしている重要なことの1つは、.R分析ファイルとそれに伴う.RDataセットの急増です。

4

2 に答える 2

2

ここでの研究プロジェクト組織に関するいくつかの考え:

http://software-carpentry.org/4_0/data/mgmt/

持ち帰りのメッセージは次のとおりです。

  • プログラムにバージョン管理を使用する
  • 賢明なディレクトリ名を使用する
  • メタデータにバージョン管理を使用する
  • 本当に、バージョン管理は良いことです。
于 2012-10-23T22:12:08.510 に答える
2

私の分析はknitrドキュメントであり、そこから呼び出されるいくつかの外部.Rファイルが含まれています。

すべてのデータはデータベースにありますが、私の分析では、処理されたデータは.RDataファイルとして保存されます。RDataを削除した場合にのみ、分析を再度実行したときにデータベースからRDataが再作成されます。キャッシュのようなもので、分析(の一部)を再実行するときにデータベースアクセスとデータ処理時間を節約します。

knitr分析に(Sweaveなど)ドキュメントを使用すると、結果を含めてドキュメント化されたワークフローを簡単に作成できます。また、knitrは分析結果をキャッシュするため、小さな変更では通常、すべてのRコードが完全に再実行されるのではなく、小さなセクションのみが再実行されます。より大規模な分析のために実行時間を大幅に節約します。

(ああ、前に述べたように、バージョン管理を使用します。別のヒント:Knitrとバージョン管理の操作はRStudioで非常に簡単です。)

于 2012-10-24T10:12:47.463 に答える