私がデータ クリーニングで最もよく扱うことの 1 つは、欠損値です。R は、「NA」欠損データ ラベルを使用してこれを適切に処理します。Python では、マスクされた配列を処理する必要があるようです。これは、セットアップが非常に面倒で、十分に文書化されていないようです。このプロセスを Python で簡単にするための提案はありますか? これは、データ分析のために Python に移行する際の障害になりつつあります。ありがとう
更新numpy.ma モジュールのメソッドを見てから明らかにしばらく経ちました。少なくとも基本的な分析関数はマスク配列で使用できるようです。提供された例は、マスク配列の作成方法を理解するのに役立ちました (著者に感謝します)。Python の新しい統計手法 (今年の GSoC で開発されている) のいくつかにこの側面が組み込まれているかどうか、少なくとも完全なケース分析を行っているかどうかを確認したいと思います。