0

大規模なデータセットから高次の特徴を検出するために、教師なしの深層人工ニューラル ネットワークを構築してトレーニングしました。

データは毎日の気象測定値で構成されており、ディープ ネットの最後の層の出力は 4 ニューロン幅であり、うまくいけば高次の特徴を表します。ここで、非常にまれなイベント (竜巻など) の確率を検出したいと考えています。竜巻を引き起こしたデータポイントを選び出しましたが、データポイントについては非常に少ないです10,000 out of 5,000,000

What's the best design for my tornado classifier?
  • 10,000 個のデータ ポイントのみで構成されたトレーニング セットを作成し、tornado毎回 1 個の出力を希望しますか?
  • 5,000,000 個のデータ ポイントすべてで構成されるトレーニング セットを作成し、竜巻がない場合は目的の出力 0 を、竜巻がある場合は 1 を出力しますか? しかし、それはおそらく竜巻を予測することはできません.
  • 他の解決策?
4

1 に答える 1

2

教師なし学習を使用する理由がわかりません。純粋に教師あり学習タスクのように思えます。

まれなイベントを予測するためにデータを捨てるべきではありません。もちろん、イベントが非常にまれな場合、ネットワークはその可能性が非常に低いと予測します。そうするからです。これを「バイアス」と呼びます。ただし、ネットワークの残りの部分は、肯定的な例と否定的な例を区別することを学ぶのが最も難しいことを試みるべきです。

それが気に入らない場合は、別の損失関数を試すことができます。おそらく、負の例よりも正の例の欠落を罰する損失関数です。または、ポジティブ サンプルのコピーをデータセットに追加するだけで、ネットワーク バイアスを変更できます。

Data Science Stack Exchange で質問した方がよいでしょう: https://datascience.stackexchange.com/

于 2015-01-02T19:32:13.333 に答える