2

ここのコードに従っただけです(sklearn 0.17のマイナーな変更を加えて)。その例では、データは単なるリストまたは numpy 配列です。ここで、おもちゃのトレーニング データセットをディスクに準備し、それを使用datasets.load_filesしてマルチラベル分類に読み込みます。ただし、単純にload_files規則に従って同じファイルを複数のフォルダーにコピーしても、 のリスト (ラベル セット) のリストは作成されませんdataset.target

では、マルチラベル分類用にデータセットを準備する正しい方法は何ですか?

4

1 に答える 1

2

マルチラベル クラスをサポートしているとは思いません。load_files正直なところ、scikit Learn を使用してデータをロードしたことはありません。最初のデータのロードと前処理は常に pandas を使用して行います。あなたの場合の1つのオプションは、データをcsvとして保存し、ラベルをパイプ区切りのリストとしてシリアル化することです

たとえば、ファイルdata.csv

recipe_name,classes
'stir fried broccoli',chinese|vegetarian
'kung po chicken',chinese|meat
'sauerkraut salad',vegetarian|polish

そして、次のようにロードします。

import pandas as pd
df = pd.read_csv('data.csv')
X_train = df.recipe_name
y_train = df.classes.str.split('|')
于 2016-05-02T04:58:28.493 に答える