0

ほとんどがユーザーの人口統計であるデータがいくつかあります。人々が「はい」または「いいえ」と答えたアンケートの質問はたくさんあります。しかし、データには当然多くの欠損値が含まれています。欠損値を代入したくありません。私はそれを第三のカテゴリーとして扱いたい。したがって、各質問には、「はい」、「いいえ」、「わからない」の 3 つの回答があります。

私が今までしていることは次のとおりです。

model = graphlab.boosted_trees_classifier.create(train,
validation_set=None, target = target, max_iterations = 80, verbose = False)

target私が予測しているのはどこですか(バイナリ1または-1です)。現在、私のデータセットtraintestデータセットの両方に多くの欠損値があるため、これまで行っていたことは次のとおりです。

predictions = model.predict(test, missing_value_action='impute')

しかし、これらの予測はあまり正確ではありません。2 つのカテゴリの回答(Yes/No)をそれぞれ 3 つのカテゴリ(Yes/No/NotSure)に変換したいと考えています。どうやってそれを行うのですか?

私は試した :

colNames = train.column_names()
for i in colNames[6:]:
    train.fillna(i,'NotSure')

これはエラーなしで実行されますが、機能しません。

4

0 に答える 0