0

私は textsum の実装を機能させることに取り組んでおり、最近、自分でスクレイピングしたデータをフィードしました。昨夜、38000 件の記事に対してトレーニングを開始しました。今朝平均損失を見たとき、私は約 5.2000000 でした。textsum おもちゃセットで遊んでいたとき、たとえば約 0.0000054 まですばやく下げることができましたが、これは約 20 の記事に対してのみでした。

もう少し経験のある人が、トレーニングにかかる​​時間についていくつかの期待を提供できることを望んでいました. 現在、これを Nvidia 980M で実行しています。先週、AWS g2.2xlarge インスタンスを試してみたかったのですが、皮肉なことに、私のローカル マシンは Grid 520 よりも高速に処理しているように見えました。P2 インスタンスと Google Cloud をまだテストしたいのですが、今のところ、ローカル マシンで作業するだけだと思います。

私が期待すべきことに関して、誰かがここで提供できるかもしれない情報はありますか? ありがとう!

4

1 に答える 1

2

ですから、この時点でほとんど答えられるので、自分で答えようと思います。別の投稿で興味深いと思ったのは、大規模なデータセットでは、「平均損失」値に関して 1 未満でトレーニングするべきではないということです。これは、「過剰適合」に陥り始めるためです。したがって、私のラップトップの Nvidia 980M を使用した 40,000 件の記事に対する現在のトレーニングでは、vocab ファイルには 65997 語が含まれており、「平均損失」を 1 つの整数に落とすのに平均で約 1 日かかりました。そのため、現在、1.2 から 2.8 程度の数値が表示されています。

------ 編集 ------ 上記の数値での平均損失のデータに対してデコードを実行したところ、結果はかなり悪かったです。これについてさらに考えた後、私のデータセットはおそらく「大きな」データセットではないことに気付きました。Gigaword データセットにアクセスできる Xin Pan などは、100 万以上の記事に対してトレーニングを実行しています。そのため、私の 40k の記事は比較にならないものだと感じています。また、上記の発言がなされたとき、彼が平均損失 1 を意味していたのか、それとも 0.01 だったのかはわかりません。いずれにせよ、「オーバーフィッティング」を視覚化するために Tensorboard を参照しており、平均損失が小さくなるまでトレーニングを続けています。後で結果が良くなったときにこれに追加します。

同じように悩んでいる方の参考になれば幸いです。

于 2016-10-17T15:16:16.430 に答える