一連の特徴ベクトルを使用してトレーニングする MLP があるとします。これらのベクトルの一部には未知の値が含まれているとします。それをどのように処理すればよいですか?MLP はこれに対応していますか?
トレーニング ベクトルが次のとおりであるとします。
(1.0, 3.4, unknown, 2.0), (3.1, unknown, 1.2, 0.1), (2.1,3.4,1.2,4.5), ...
ファンを使っています。
一連の特徴ベクトルを使用してトレーニングする MLP があるとします。これらのベクトルの一部には未知の値が含まれているとします。それをどのように処理すればよいですか?MLP はこれに対応していますか?
トレーニング ベクトルが次のとおりであるとします。
(1.0, 3.4, unknown, 2.0), (3.1, unknown, 1.2, 0.1), (2.1,3.4,1.2,4.5), ...
ファンを使っています。
欠落データの問題について言及しています(Little. and Rubin 1987)。これは、ニューラル ネットワーク分類器だけでうまく処理できるものではありません。データを前処理し、既知のインスタンス変数値に基づいて条件付きで統計的に推定された単純な値 (1) またはより高度なアルゴリズム (2) のいずれかによって、欠落しているデータを埋めようとする必要があります。
instance1 = 0, 0, 1, 0, 1
instance2 = 0, 0, 1, 0, 1
instance3 = 1, 1, 1, 0, 0
instanceX = 1, 1, 1, 0, ?
# The statistical approach
We can see that instanceX shares a lot of instance3's features,
thus we will set the unknown variable accoring to instance3's defined value: 0
# The mean
We could calculate the dataset's mean value for this variable and
use the calculated value: 1
これは、欠損データのおおよその推定値を見つけるためのより高度なアルゴリズムです。ここでアルゴリズムの紹介を読んでください。