1

パンダを使用してcsvファイルを読み取っています。データは数字ですが、テキストとしてcsvファイルに保存されます。一部の値は、不良または欠落している場合は数値ではありません。これらの値をフィルターで除外し、残りのデータを整数に変換するにはどうすればよいですか。

isdigit()すべての値をループして、それらが数値であることをテストするために使用するよりも、より良い/より速い方法があると思います。

パンダやnumpyには、リーダーの悪い値を認識する方法がありますか?そうでない場合、それを行う最も簡単な方法は何ですか?これを機能させるには、dtypeを指定する必要がありますか?

4

3 に答える 3

3

を使用して、欠落しているものとして扱われる値のカスタムリストを渡すことができますpandas.read_csvconvertersまたは、引数に関数を渡すこともできます。

于 2012-03-29T14:55:21.097 に答える
3

pandas.read_csvパラメータがありますna_values

na_values : list-like, default None
    List of additional strings to recognize as NA/NaN

ここで、これらの不正な値を定義できます。

于 2012-03-30T10:54:02.053 に答える
1

NumPyは、genfromtxt()この目的のために特別に機能を提供します。リンクされたドキュメントの最初の文:

欠落している値を指定どおりに処理して、テキストファイルからデータをロードします。

于 2012-03-29T14:45:40.600 に答える