最初に言っておきますが、私は正規表現などを優先して手作業でデータをクリーニングすることを熱心に避けています。ただし、避けられない場合もあります。
通常、 Load-Clean-Func-Doワークフローのようなものを使用するので、これは明らかにクリーニング フェーズに適合します。ただし、手動で編集すると、更新が必要な場合に手動でクリーニングする前に実行できなくなります。
これを処理するには、少なくとも 3 つの方法が考えられます。
- 手作業による変更をワークフローのできるだけ早い段階で行い、その後のすべてが実行可能なままになるようにします。
- 単一の変更ごとに正規表現または代入演算を書き出します。
- 変更を加えたスプレッドシートを閉じた後、(2) を生成するツールを使用します。
2 の問題は、非常に扱いにくいことです。3 の問題は、R 用にそのようなツールが存在することを私が知らないことです。Stata はこれを非常にうまく実装しています。
質問は次のとおりです。
- 最もストレスの少ないコード記述で、最も再現性の高いコードが得られるのはどれですか?
- (3)のようなツールはありますか?