r - R ワークフロー: 手洗いデータの処理方法

Question

最初に言っておきますが、私は正規表現などを優先して手作業でデータをクリーニングすることを熱心に避けています。ただし、避けられない場合もあります。

通常、 Load-Clean-Func-Doワークフローのようなものを使用するので、これは明らかにクリーニングフェーズに適合します。ただし、手動で編集すると、更新が必要な場合に手動でクリーニングする前に実行できなくなります。

これを処理するには、少なくとも 3 つの方法が考えられます。

2 の問題は、非常に扱いにくいことです。3 の問題は、R 用にそのようなツールが存在することを私が知らないことです。Stata はこれを非常にうまく実装しています。

質問は次のとおりです。

score 8 · Accepted Answer

手洗いは一般的にかなり悪い考えであることに同意します. ただし、やむを得ない場合もあります。2つのうちの1つ、または両方をお勧めします。

3 つの変数「case_id」、「variable_name」、「value」を含む「データ修正」で別のデータファイルを保持します。これを使用して、元のデータのどの値を置き換える必要があるかに関する情報を保存します。クリーニングに関する追加情報にいくつかの追加変数を追加できます (たとえば、変数 "variable_name" の値をケース "case_id" の "value" に置き換える必要がある理由など)。次に、元のデータをロードし、「修正」ファイルの追加情報でクリーンアップする短い R コードを作成します。
おそらく、git や subversion などのバージョン管理システムの使用を開始する必要があります (他のプログラムもあります)。データに対するすべての手動変更は、個別のコミットとしてシステムに記録できます。一日の終わりまでに、いつ、どのような変更をデータに加えたかをログで簡単に確認できるようになります。さらに、元のデータファイルをクリーンなデータファイルに変換するパッチファイルを生成できます。R コードファイルをバージョン管理することも有益です。

1 に答える 1