7

sklearn を使用すると、事前定義されたデータセットを使用できることがわかりました。たとえばmydataset = datasets.load_digits()、データセットの配列 (numpy 配列?) とmydataset.data対応するラベルの配列を取得できますmydataset.target。ただし、sklearn で使用できるように、独自のデータセットをロードしたいと考えています。データをどのように、どの形式でロードすればよいですか? ファイルの形式は次のとおりです (各行はデータポイントです)。

-0.2080,0.3480,0.3280,0.5040,0.9320,1.0000,label1
-0.2864,0.1992,0.2822,0.4398,0.7012,0.7800,label3
...
...
-0.2348,0.3826,0.6142,0.7492,0.0546,-0.4020,label2
-0.1856,0.3592,0.7126,0.7366,0.3414,0.1018,label1
4

1 に答える 1

14

numpyのgenfromtxt関数を使用して、ファイルからデータを取得できます(http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html

import numpy as np
mydata = np.genfromtxt(filename, delimiter=",")

ただし、テキスト列がある場合は、データ型を指定する必要があるため、genfromtxtの使用は注意が必要です。

優れたPandasライブラリ(http://pandas.pydata.org/)を使用すると、はるかに簡単になります。

import pandas as pd
mydata = pd.read_csv(filename)
target = mydata["Label"]  #provided your csv has header row, and the label column is named "Label"

#select all but the last column as data
data = mydata.ix[:,:-1]
于 2013-02-27T10:31:17.700 に答える