dataset - 予測のためにニューラルネットワークモデルで使用されるデータの欠測値

Question

現在、予測ニューラルネットワークのトレーニングに使用されるデータがたくさんあります（米国周辺の主要空港のギガバイトの気象データ）。私はほぼ毎日のデータを持っていますが、一部の空港ではデータに値がありません。たとえば、空港は1995年以前には存在していなかった可能性があるため、その特定の場所に関するデータはそれ以前にはありません。また、一部は1年間欠落しています（1つは1990年から2011年にまたがり、2003年が欠落している可能性があります）。

ニューラルネットワークを誤解することなく、これらの欠落値を使用してトレーニングするにはどうすればよいですか？空のデータを0または-1で埋めることについては考えていますが、これにより、ネットワークが一部の出力に対してこれらの値を予測するようになると思います。

score 1 · Accepted Answer

私は予測に多くの NN を使用していますが、データにその「穴」を残すだけでよいと言えます。実際、NN は観測データ内の関係を学習できるため、特定の期間がなくても問題ありません...空のデータを定数値として設定すると、トレーニングアルゴリズムに誤解を招く情報を与える必要があります。 . NN は「連続」データを必要としません。実際、連続していないサンプルで逆伝播フェーズを実行するために、トレーニングの前にデータセットをシャッフルすることをお勧めします...

score 1 · Accepted Answer

私は専門家ではありませんが、これはニューラルネットワークの種類によって異なるのでしょうか?

ニューラルネットワークの要点は、不足している情報などを処理できることです。

ただし、1 と 0 で空のデータを設定することは良いことではありません。

ニューラルネットワークに関する情報を提供していただけないでしょうか。

score 0 · Accepted Answer

さて、オートエンコーダーという名前のニューラルネットワークのタイプは、あなたの仕事に適しています。オートエンコーダーを使用して、入力を再構築できます。オートエンコーダーは、基になるデータの多様体/分布を学習するようにトレーニングされています。ただし、それらは主に画像や音声などの信号再構成タスクに使用されます。ただし、それらを使用して不足している機能を埋めることができます。

また、多くのレコメンデーションシステムで使用されている「行列分解」と呼ばれる別の手法もあります。人々は行列分解技術を使用して、巨大な行列に多くの欠損値を埋めます。たとえば、IMDb に 100 万本の映画があるとします。彼女の生涯を通じて、それらの映画の1/10でさえ見た人はほとんどいません。しかし、彼女はいくつかの映画に投票しました。マトリックスはN by M、NユーザーM数と映画の数です。行列因数分解は、欠落している値を埋め、他の映画に対する以前の投票に基づいてユーザーに映画を提案するために使用される手法の 1 つです。

dataset - 予測のためにニューラルネットワークモデルで使用されるデータの欠測値

3 に答える 3

Related

Reference