2

Python スクリプトを使用して、多数の大きな .csv ファイルをクリーンアップして連結しています。具体的には、パンダの read_csv 関数を使用してファイルを読み取り、それらをデータフレーム オブジェクトとして処理しています。これはうまく機能していました。pandas を使用するのはこれが初めてなので、pandas に含まれる非常に便利な機能のすべてにまだ慣れていません。

私が読んでいるcsvファイルは、NA/NaNを示すセンチネル値として-99.9を使用しています。これは、欠落データを示す方法とは異なるため、-99.9 をすべて "NaN" に変更したいと思います。それを行うための簡単な組み込みの方法はありますか、それともデータフレームを反復処理して各値を確認する必要がありますか?

4

2 に答える 2

3

@Joop の応答はよりエレガントだと思います。ただし、CSV を読み取った後に に置き換える必要がある他の特定の値があることがわかった場合はNA/NaN、次を使用できます。

pandas_dataframe.replace(['bad_data_1', 'bad_data_2'], [None, None], inplace=True)

False別のデータフレームを作成する場合は、 inplace に設定します。

また、CSV の読み取り中に不適切な値がわかっている場合は、@Joop の応答を変更してリストを次のように含めます。

train_df = pd.read_csv('/my.csv', na_values=["bad_value_1", "bad_value_2"])
于 2015-09-13T01:12:27.507 に答える