ほとんどがユーザーの人口統計であるデータがいくつかあります。人々が「はい」または「いいえ」と答えたアンケートの質問はたくさんあります。しかし、データには当然多くの欠損値が含まれています。欠損値を代入したくありません。私はそれを第三のカテゴリーとして扱いたい。したがって、各質問には、「はい」、「いいえ」、「わからない」の 3 つの回答があります。
私が今までしていることは次のとおりです。
model = graphlab.boosted_trees_classifier.create(train,
validation_set=None, target = target, max_iterations = 80, verbose = False)
target
私が予測しているのはどこですか(バイナリ1または-1です)。現在、私のデータセットtrain
とtest
データセットの両方に多くの欠損値があるため、これまで行っていたことは次のとおりです。
predictions = model.predict(test, missing_value_action='impute')
しかし、これらの予測はあまり正確ではありません。2 つのカテゴリの回答(Yes/No)をそれぞれ 3 つのカテゴリ(Yes/No/NotSure)に変換したいと考えています。どうやってそれを行うのですか?
私は試した :
colNames = train.column_names()
for i in colNames[6:]:
train.fillna(i,'NotSure')
これはエラーなしで実行されますが、機能しません。