私はデータ分析に R を使用しており、非常に満足しています。ただし、データのクリーニングは少し簡単になる可能性があります。この仕事に適した別の言語を学ぶことを考えています。具体的には、生データを取得し、不要な変数や観察結果を削除し、R に簡単にロードできるようにフォーマットするために使用するツールを探しています。コンテンツは、複数行のテキストではなく、ほとんどが数値および文字列データになります。
Python と awk/sed の組み合わせを検討しています。(Perl も別の選択肢になることは承知していますが、別の完全な言語を学ぶつもりなら、Python の方が優れていて、より拡張性の高い選択肢のようです。)
sed/awk の利点は、習得が早いことです。欠点は、この組み合わせは Python ほど拡張性がないことです。確かに、Python を学べば「ミッション クリープ」を想像するかもしれませんが、それは問題ありませんが、私の目標ではありません。
私が考えていたもう 1 つの考慮事項は、大規模なデータ セットへの適用です。私が理解しているように、awk/sed は行単位で動作しますが、Python は通常、すべてのデータをメモリに取り込みます。これは、sed/awk のもう 1 つの利点となる可能性があります。
私が見逃している他の問題はありますか?アドバイスをいただければ幸いです。(R ユーザーがクリーニングの推奨事項を提供できるように、R タグを含めました。)