私は RNN を使用してドメイン固有の分類研究を実行しようとしており、数千万のテキストを蓄積しています。データセット全体を実行するには数日から数か月かかるため、テスト用にほんの一部、たとえば 100 万個のテキスト (トレーニング用に 80%、検証用に 20%) だけを選びました。コーパス全体を単語ベクトル化で事前トレーニングし、モデルに Dropout を適用してオーバーフィッティングを回避しました。12 時間以内に 60000 個のテキストをトレーニングしたところ、損失はすでにかなり低いレベルにまで落ちており、精度は 97% でした。続けるべきか?トレーニングの継続に役立ちますか?
それはまだ最初のエポックを実行中であり、私が今停止した場合、モデルは全体をカバーしていないのではないかと心配しています...