python - マルチラベル分類用のトレーニングデータセットを準備する

Question

ここのコードに従っただけです（sklearn 0.17のマイナーな変更を加えて）。その例では、データは単なるリストまたは numpy 配列です。ここで、おもちゃのトレーニングデータセットをディスクに準備し、それを使用datasets.load_filesしてマルチラベル分類に読み込みます。ただし、単純にload_files規則に従って同じファイルを複数のフォルダーにコピーしても、のリスト (ラベルセット) のリストは作成されませんdataset.target。

では、マルチラベル分類用にデータセットを準備する正しい方法は何ですか?

score 2 · Accepted Answer

マルチラベルクラスをサポートしているとは思いません。load_files正直なところ、scikit Learn を使用してデータをロードしたことはありません。最初のデータのロードと前処理は常に pandas を使用して行います。あなたの場合の1つのオプションは、データをcsvとして保存し、ラベルをパイプ区切りのリストとしてシリアル化することです

たとえば、ファイルdata.csvは

recipe_name,classes
'stir fried broccoli',chinese|vegetarian
'kung po chicken',chinese|meat
'sauerkraut salad',vegetarian|polish

そして、次のようにロードします。

import pandas as pd
df = pd.read_csv('data.csv')
X_train = df.recipe_name
y_train = df.classes.str.split('|')

python - マルチラベル分類用のトレーニング データセットを準備する

1 に答える 1

Related

Reference

python - マルチラベル分類用のトレーニングデータセットを準備する