1

通常の ANN や標準的な機械学習手法に関して言えば、トレーニング、テスト、および検証セットがどうあるべきか (概念的にも、経験則の比率でも) を理解しています。ただし、双方向 LSTM (BLSTM) ネットの場合、データを分割する方法がわかりません。

監視された健康値で構成される個々の被験者データの予測を改善しようとしています。最も単純なケースでは、被験者ごとに 1 つの長い時系列の値 (>20k 値) があり、その時系列の連続部分は、被験者の現在の健康状態に応じて一連のカテゴリからラベル付けされます。BLSTM の場合、ネットはすべてのデータで同時に順方向および逆方向にトレーニングされます。問題は、1 つの被験者の時系列をどのように分割するかということです。

  • たとえば、最後の 2,000 個の値だけを取得することはできません。それらはすべて 1 つのカテゴリに分類される可能性があるためです。
  • また、時系列をランダムに切り刻むことはできません。学習フェーズとテスト フェーズの両方がバラバラなチャンクで構成されるためです。

最後に、各被験者は (私が知る限り) わずかに異なる (しかし類似した) 特性を持っています。では、おそらく、私は何千もの被験者を持っているので、一部をトレーニングし、一部をテストし、他のものを検証しますか? ただし、科目ごとに違いがあるため、1 つの科目だけを開始することを検討している場合、どのようにテストを設定すればよいでしょうか?

4

1 に答える 1