大規模なデータセットから高次の特徴を検出するために、教師なしの深層人工ニューラル ネットワークを構築してトレーニングしました。
データは毎日の気象測定値で構成されており、ディープ ネットの最後の層の出力は 4 ニューロン幅であり、うまくいけば高次の特徴を表します。ここで、非常にまれなイベント (竜巻など) の確率を検出したいと考えています。竜巻を引き起こしたデータポイントを選び出しましたが、データポイントについては非常に少ないです10,000 out of 5,000,000
。
What's the best design for my tornado classifier?
- 10,000 個のデータ ポイントのみで構成されたトレーニング セットを作成し、
tornado
毎回 1 個の出力を希望しますか? - 5,000,000 個のデータ ポイントすべてで構成されるトレーニング セットを作成し、竜巻がない場合は目的の出力 0 を、竜巻がある場合は 1 を出力しますか? しかし、それはおそらく竜巻を予測することはできません.
- 他の解決策?