2

私はニューラルネットワークを使用して土壌スペクトル分類に取り組んでおり、教授から得られたデータは、波長1200nmから2400nmまでのスペクトル反射率で構成されています。彼は270サンプルしか持っていません。

トレーニングデータが非常に少ないため(270サンプルのみ)、74%を超える精度でネットワークをトレーニングできませんでした。Matlabコードが正しくないのではないかと心配していましたが、MatlabでNeural Net Toolboxを使用した場合、同じ結果が得られました... 75%以上の精度はありません。

私が教授にそれについて話したとき、彼はもうデータがないと言ったが、より多くのデータを得るためにこのデータにランダムな摂動をするように私に頼んだ。私はデータのランダムな摂動についてオンラインで調査していますが、不足しています。

より多くのデータを取得できるように、270個のデータサンプルに対してランダムな摂動を実行するための正しい方向を誰かが教えてもらえますか?

また、これを行うことで「偽の」データを構築するので、ニューラルネットワークがどのように優れているかわかりません。実際の有効なデータを使用してネットワークをトレーニングするニューラルネットのポイントではありませんか?

ありがとう、

ファイサル。

4

3 に答える 3

3

まず、いくつかの一般的なアドバイス:

  1. 各入力変数と出力変数を[0.0、1.0]に正規化します
  2. フィードフォワードMLPを使用する場合は、2つ以上の非表示レイヤーを使用してみてください
  3. ネットワークがデータの複雑さに取り組むことができるように、隠れ層あたりのニューロンの数が十分に大きいことを確認してください

モデルの複雑さが十分であれば、トレーニングセットで100%の精度を得ることが常に可能であるはずです。ただし、100%のトレーニングセットの精度は、必ずしもモデルが見えないデータ(一般化パフォーマンス)でうまく機能することを意味するわけではないことに注意してください。

追加する摂動が実際に発生する場合(または少なくとも同様の摂動)、データのランダムな摂動は一般化のパフォーマンスを向上させることができます。これが機能するのは、データがどのように異なって見えるが、それでも特定のラベルに属しているかをネットワークに教えることを意味するからです。

画像分類の場合、入力画像を回転、拡大縮小、ノイズなどすることができます(出力は当然同じままです)。データにどのような摂動が適用されるかを把握する必要があります。一部の問題では、これは困難であるか、改善が見られないため、試してみる必要があります。これが機能しない場合は、必ずしも実装やデータが壊れていることを意味するわけではありません。

于 2013-03-25T11:25:07.130 に答える
3

より多くのデータを作成しようとするのは悪い考えだと思います。サンプリングするデータの実際の分布を知らない限り、すでに持っているよりも高い情報コンテンツで何かを作成することはできません。ただし、そうすると、ベイズの最適なエラー率で分類できるようになります。これを打ち負かすことは不可能です。

代わりに私が見ているのは、パフォーマンスを向上させるためにニューラルネットのパラメーターを変更できるかどうかです。少量のトレーニングデータですぐに頭に浮かぶのは、ウェイトレギュラライザー(正規化されたウェイトを使用している場合でも)です。これは、そのように傾いている場合は、ウェイトの事前値と見なすことができます。単純な線形アクティベーションを使用している場合は、アクティベーション関数を変更することも検討します。さらに、非表示ノードの数も検討します(例が非常に少ないため、使用する例はごくわずかです。または、隠しレイヤーを完全にバイパスすることもできます。難しいためです。限られたデータとの非線形相互作用を学習するため)。

通常はお勧めしませんが、10〜20%のテストセットサイズから役に立たない洞察が得られるため、サイズが制限されている場合は、クロス検証を使用してこれらのハイパーパラメータを設定する必要があります。ただし、結果に偏りが生じないように、最終テストでは10〜20%を差し控えることができます。

于 2013-03-25T11:31:06.347 に答える
3

データにランダムノイズを追加する最も簡単な方法は、ガウスノイズを適用することです。

あなたの測定値にはエラーが関連付けられていると思います(エラーのない測定値にはほとんど意味がありません)。測定値M+-DeltaMごとに、N(M、DeltaM)を使用して新しい数値を生成できます。ここで、nは正規分布です。

これにより、以前のポイントからの実験的なノイズとして新しいポイントが追加され、分類の測定値の異常なエラーを考慮に入れるのに役立ちます。しかし、これがどれほど役立つかを事前に知ることができるかどうかはわかりません!

于 2013-03-25T14:06:41.373 に答える