c - MLP トレーニング: 未知の特徴量を処理する方法

Question

一連の特徴ベクトルを使用してトレーニングする MLP があるとします。これらのベクトルの一部には未知の値が含まれているとします。それをどのように処理すればよいですか？MLP はこれに対応していますか?

トレーニングベクトルが次のとおりであるとします。

(1.0, 3.4, unknown, 2.0), (3.1, unknown, 1.2, 0.1), (2.1,3.4,1.2,4.5), ...

ファンを使っています。

score 0 · Accepted Answer

欠損データ

欠落データの問題について言及しています(Little. and Rubin 1987)。これは、ニューラルネットワーク分類器だけでうまく処理できるものではありません。データを前処理し、既知のインスタンス変数値に基づいて条件付きで統計的に推定された単純な値 (1) またはより高度なアルゴリズム (2) のいずれかによって、欠落しているデータを埋めようとする必要があります。

(1) 例:

instance1 = 0, 0, 1, 0, 1
instance2 = 0, 0, 1, 0, 1
instance3 = 1, 1, 1, 0, 0
instanceX = 1, 1, 1, 0, ?

# The statistical approach
We can see that instanceX shares a lot of instance3's features,
thus we will set the unknown variable accoring to instance3's defined value: 0
# The mean
We could calculate the dataset's mean value for this variable and
use the calculated value: 1

(2) EM アルゴリズム

これは、欠損データのおおよその推定値を見つけるためのより高度なアルゴリズムです。ここでアルゴリズムの紹介を読んでください。

c - MLP トレーニング: 未知の特徴量を処理する方法

1 に答える 1

欠損データ

(1) 例:

(2) EM アルゴリズム

Related

Reference