python - Pythonパンダでcsvを読み取り、不正な値を処理する

Question

パンダを使用してcsvファイルを読み取っています。データは数字ですが、テキストとしてcsvファイルに保存されます。一部の値は、不良または欠落している場合は数値ではありません。これらの値をフィルターで除外し、残りのデータを整数に変換するにはどうすればよいですか。

isdigit()すべての値をループして、それらが数値であることをテストするために使用するよりも、より良い/より速い方法があると思います。

パンダやnumpyには、リーダーの悪い値を認識する方法がありますか？そうでない場合、それを行う最も簡単な方法は何ですか？これを機能させるには、dtypeを指定する必要がありますか？

score 3 · Accepted Answer

を使用して、欠落しているものとして扱われる値のカスタムリストを渡すことができますpandas.read_csv。convertersまたは、引数に関数を渡すこともできます。

score 3 · Accepted Answer

pandas.read_csvパラメータがありますna_values：

na_values : list-like, default None
    List of additional strings to recognize as NA/NaN

ここで、これらの不正な値を定義できます。

score 1 · Accepted Answer

NumPyは、genfromtxt()この目的のために特別に機能を提供します。リンクされたドキュメントの最初の文：

欠落している値を指定どおりに処理して、テキストファイルからデータをロードします。

3 に答える 3