4

R CMD check私は医療データを扱っており、 、 、testthatおよびを利用して、パッケージ環境で分析を開発することを好みますdevtools

典型的な分析は、データベースからデータを抽出することから始まります (多くの場合、長い結合と多くの行が含まれるため、簡単な手順ではありません)。

私の主な目標は、再現可能な分析を可能にしながら、健康情報を保護することです。データを匿名化することはできますが、たとえ公式に匿名化されたとしても、個人を特定できる可能性のある情報がたくさんあることに懸念を抱いています。したがって、匿名化されたデータであっても非常に慎重に扱います。データは、分析ごとに約 100 ~ 500Mb です。

パッケージ内のディレクトリにデータをdata配置することは、最悪の解決策のようです。データが大きいため、パッケージの作成が遅くなります。クエリが変化し、時間の経過とともに変化する場合、静的です。保護されたデータを送信したくない場合は、コードだけを共有することが難しくなります。

R.cache、 、およびマークダウン ドキュメントでmemoiseキャッシュされたブロックを使用してみました。knitr

R.cache現時点では最善のように思えますが、ホーム ディレクトリに大量のあいまいな名前のデータをダンプします。memoise柔軟性が十分ではなく、データベースクエリよりも計算の一時的なキャッシュの方がはるかに優れているように見えました. knitrキャッシングはマークダウンでは問題なく機能しましたが、インタラクティブな R の直接使用には使用できません。

適度に大量の保護されたデータを使用したパッケージベースの分析について、他に推奨事項や提案がある人はいますか?

4

0 に答える 0