2

Python データテーブル ( https://github.com/h2oai/datatable ) を使用して、整数値のみを含む csv ファイルを読み取ります。その後、データテーブルを pandas Dataframe に変換します。変換時に、0/1 のみを含む列は、整数ではなくブール値と見なされます。

次の csv ファイル (small_csv_file_test.csv) を作成します。

a1,a2,a3,a4,a5,a6,a7,a8,a9,a10
 1、1、1、1、1、1、1、0、1、1
 2、2、2、2、2、2、2、1、0、1
 3、3、3、3、3、3、3、0、0、1
 4、4、4、4、4、4、4、1、0、0
 5、5、5、5、5、5、5、0、0、0
 6, 6, 6, 6, 6, 6, 6, 0, 0, 0
 7, 7, 7, 7, 7, 7, 7, 1, 1, 0
 8、8、8、8、8、8、8、1、1、1
 9、9、9、9、9、9、9、1、1、1
 0、0、0、0、0、0、0、1、0、1

ソースコード:

import pandas as pd
import datatable as dt

test_csv_matrix = "small_csv_file_test.csv"

data = dt.fread(test_csv_matrix)
print(data.head(5))

matrix= data.to_pandas()
print(matrix.head())

結果:

   | | a1 a2 a3 a4 a5 a6 a7 a8 a9 a10  
-- + -- -- -- -- -- -- -- -- -- ---  
 0 | 1 1 1 1 1 1 1 0 1 1  
 1 | 2 2 2 2 2 2 2 1 0 1  
 2 | 3 3 3 3 3 3 3 0 0 1  
 3 | 4 4 4 4 4 4 4 1 0 0  
 4 | 5 5 5 5 5 5 5 0 0 0  

【5行×10列】

   a1 a2 a3 a4 a5 a6 a7 a8 a9 a10  
0 1 1 1 1 1 1 1 偽 真 真  
1 2 2 2 2 2 2 2 真 偽 真  
2 3 3 3 3 3 3 3 偽 偽 真  
3 4 4 4 4 4 4 4 真 偽 偽  
4 5 5 5 5 5 5 5 偽 偽 偽  

編集 1:列 a8、a9、および a10 が正しくありません。ブール値ではなく整数値として使用します。

ご協力ありがとうございました。

4

4 に答える 4