Tensorflow 0.9 を使用し、Textsum モデルでトレーニングしています。スクレイピングした約 130 万の記事があり、約 1 週間、それらに対してトレーニングを行っています。平均損失は約 1.75 ~ 2.1 でした。私の平均損失はトレーニングで得られるものに近いはずだと理解しているので、停止して eval を実行することにしました。評価を実行すると、2.6 から 2.9 の平均損失が見られます。この実行を実行するときに何を期待すべきかを考えていました。
このトレーニング/評価分析を正しく使用していますか? 私は深層学習にやや慣れておらず、これを学習の方法として使用しようとしていますが、他の読書を通じて、これは2つの間で少し大きく広がっているようです.
異なるデータセットに対して評価するための標準的な許容範囲はありますか?また、平均損失の差はどの程度であるべきですか? この時点で、トレーニングを続けるか、ここで停止して、テンソルフロー サービングでこれを実行する方法を理解しようとするかどうかはわかりません。モデルを過度に適合させたくはありませんが、学術的な観点から、トレーニングによって過剰適合したとしましょう。それを「修正」するにはどうすればよいですか?より多くの記事を取得し、トレーニングとしてそのデータをフィードするだけですか、それともモデルが本質的に壊れていて使用できませんか?