tensorflow - textsum トレーニングが平均損失をまともな値に落とすのにかかるおおよその時間

Question

私は textsum の実装を機能させることに取り組んでおり、最近、自分でスクレイピングしたデータをフィードしました。昨夜、38000 件の記事に対してトレーニングを開始しました。今朝平均損失を見たとき、私は約 5.2000000 でした。textsum おもちゃセットで遊んでいたとき、たとえば約 0.0000054 まですばやく下げることができましたが、これは約 20 の記事に対してのみでした。

もう少し経験のある人が、トレーニングにかかる時間についていくつかの期待を提供できることを望んでいました. 現在、これを Nvidia 980M で実行しています。先週、AWS g2.2xlarge インスタンスを試してみたかったのですが、皮肉なことに、私のローカルマシンは Grid 520 よりも高速に処理しているように見えました。P2 インスタンスと Google Cloud をまだテストしたいのですが、今のところ、ローカルマシンで作業するだけだと思います。

私が期待すべきことに関して、誰かがここで提供できるかもしれない情報はありますか? ありがとう！

score 2 · Accepted Answer

ですから、この時点でほとんど答えられるので、自分で答えようと思います。別の投稿で興味深いと思ったのは、大規模なデータセットでは、「平均損失」値に関して 1 未満でトレーニングするべきではないということです。これは、「過剰適合」に陥り始めるためです。したがって、私のラップトップの Nvidia 980M を使用した 40,000 件の記事に対する現在のトレーニングでは、vocab ファイルには 65997 語が含まれており、「平均損失」を 1 つの整数に落とすのに平均で約 1 日かかりました。そのため、現在、1.2 から 2.8 程度の数値が表示されています。

------ 編集 ------ 上記の数値での平均損失のデータに対してデコードを実行したところ、結果はかなり悪かったです。これについてさらに考えた後、私のデータセットはおそらく「大きな」データセットではないことに気付きました。Gigaword データセットにアクセスできる Xin Pan などは、100 万以上の記事に対してトレーニングを実行しています。そのため、私の 40k の記事は比較にならないものだと感じています。また、上記の発言がなされたとき、彼が平均損失 1 を意味していたのか、それとも 0.01 だったのかはわかりません。いずれにせよ、「オーバーフィッティング」を視覚化するために Tensorboard を参照しており、平均損失が小さくなるまでトレーニングを続けています。後で結果が良くなったときにこれに追加します。

同じように悩んでいる方の参考になれば幸いです。

tensorflow - textsum トレーニングが平均損失をまともな値に落とすのにかかるおおよその時間

1 に答える 1

Related

Reference