classification - 欠損データを別のカテゴリとして扱う

翻译自：https://stackoverflow.com/questions/37554559 2016-05-31T19:55:32.970

265 次

ほとんどがユーザーの人口統計であるデータがいくつかあります。人々が「はい」または「いいえ」と答えたアンケートの質問はたくさんあります。しかし、データには当然多くの欠損値が含まれています。欠損値を代入したくありません。私はそれを第三のカテゴリーとして扱いたい。したがって、各質問には、「はい」、「いいえ」、「わからない」の 3 つの回答があります。

私が今までしていることは次のとおりです。

model = graphlab.boosted_trees_classifier.create(train,
validation_set=None, target = target, max_iterations = 80, verbose = False)

target私が予測しているのはどこですか（バイナリ1または-1です）。現在、私のデータセットtrainとtestデータセットの両方に多くの欠損値があるため、これまで行っていたことは次のとおりです。

predictions = model.predict(test, missing_value_action='impute')

しかし、これらの予測はあまり正確ではありません。2 つのカテゴリの回答(Yes/No)をそれぞれ 3 つのカテゴリ(Yes/No/NotSure)に変換したいと考えています。どうやってそれを行うのですか？

私は試した：

colNames = train.column_names()
for i in colNames[6:]:
    train.fillna(i,'NotSure')

これはエラーなしで実行されますが、機能しません。

classification - 欠損データを別のカテゴリとして扱う

0 に答える 0

Related

Reference