3

誰かから受け取った、コンマで区切られたフィールドを持つデータ ファイルがあります。通常の記述統計のようなものを理解するには、各列を体系的に調べなければなりません: -最小 -最大 -平均 -25 パーセンタイル -50 パーセンタイル -75 パーセンタイル

またはテキストの場合: -個別の値の数

だけでなく、-null または欠落した値の数-ゼロの数を見つける必要もあります

機能の奇妙さが何かを意味する場合があります。つまり、情報が含まれています。そして、私が見つけた奇妙なことについて、クライアントと一緒に戻る必要があるかもしれません. または、値を置き換える場合は、無謀に何かを処理していないことを確認する必要があります。

だから私の質問はこれです:データ型を前提とせずにこれを見つけるPythonのパッケージはありますか?そして、もしそれが存在するなら、パンダはその良い家になるでしょうか?

pandas を使用すると、値を簡単に置き換えることができますが、最初は見たいだけです。

4

1 に答える 1

1

describe次の方法を使用できます。

In [1]: df = pd.DataFrame(randn(10, 3), columns=list('ABC'))

In [2]: df
Out[2]:
          A         B         C
0  1.389738 -0.205485 -0.775810
1 -1.166596 -0.898761 -1.805333
2 -1.016509 -0.816037  0.169265
3 -0.440860 -1.147164  1.558606
4  0.763012  1.068694 -0.711795
5  0.075961 -0.597715  0.699023
6  3.006095 -0.354879 -0.718440
7 -1.249588 -0.372235  1.611717
8  0.518770 -0.742766  1.956372
9  1.304080 -0.803262 -0.609970

In [3]: df.describe()
Out[3]:
               A          B          C
count  10.000000  10.000000  10.000000
mean    0.318410  -0.486961   0.137363
std     1.360633   0.616566   1.266616
min    -1.249588  -1.147164  -1.805333
25%    -0.872596  -0.812843  -0.716779
50%     0.297366  -0.670240  -0.220352
75%     1.168813  -0.359218   1.343710
max     3.006095   1.068694   1.956372

引数がpercentile_widthあり、デフォルトは 50 です。

于 2013-06-15T08:23:57.353 に答える