kaggle.com からの python のプロジェクトがあります。データセットの読み取りに問題があります。1 つのcsv ファイルがあります。それを読み込んで、ターゲットとトレーニングの部分を配列に入れる必要があります。
以下は、データ セットの最初の 3 行です (ターゲット列は 19 列目で、特徴は最初の 18 列です)。
user gender age how_tall_in_meters weight body_mass_index x1
debora Woman 46 1.62 75 28.6 -3
debora Woman 46 1.62 75 28.6 -3
ここに表示されていないターゲット列には文字列値があります。
from pandas import read_csv
import numpy as np
from sklearn.linear_model.stochastic_gradient import SGDClassifier
from sklearn import preprocessing
import sklearn.metrics as metrics
from sklearn.cross_validation import train_test_split
#d = pd.read_csv("data.csv", dtype={'A': np.str(), 'B': np.str(), 'S': np.str()})
dataset = np.genfromtxt(open('data.csv','r'), delimiter=',', dtype='f8')[1:]
target = np.array([x[19] for x in dataset])
train = np.array([x[1:] for x in dataset])
print(target)
私が得ているエラーは次のとおりです。
Traceback (most recent call last):
File "C:\Users\Cameron\Desktop\Project - Machine learning\datafilesforproj\SGD_classifier.py", line 12, in <module>
dataset = np.genfromtxt(open('data.csv','r'), delimiter=',', dtype='f8')[1:]
File "C:\Python33\lib\site-packages\numpy\lib\npyio.py", line 1380, in genfromtxt
first_values = split_line(first_line)
File "C:\Python33\lib\site-packages\numpy\lib\_iotools.py", line 217, in _delimited_splitter
line = line.split(self.comments)[0]
TypeError: Can't convert 'bytes' object to str implicitly