2

私は tensorflow の textsum (テキスト要約モデル) に取り組んでいます。サンプルデータ、つまりgitからのクローン作成中にモデルに提供されたおもちゃのデータセットを使用してモデルをトレーニングするために実行しました。モデルをトレーニングし、サンプル データセットを使用してデコードするのにどれくらいの時間がかかるか知りたいです。すでに 17 時間以上かかっていますが、まだ実行中です。

4

2 に答える 2

1

残念ながら、おもちゃのデータ トレーニング セットは、モデルの全体的な流れを監視する手段を提供することのみを目的としており、まともな結果を提供することを目的としていません。これは、良い結果を提供するのに十分なデータがおもちゃのデータセットに提供されていないためです。

時間は、実行しているハードウェアに関連しているため、提供するのが少し難しいです。したがって、通常は平均損失が 2 から 1 の間になるまでトレーニングを続けます。Xin Pan は、大規模なデータセットでは平均損失が 1.0 を下回らないようにすべきだと述べています。私の 980M では、おもちゃのデータセットを使用して 1 日もかからずにこれを取得できました。

とはいえ、私の結果は本当に悪く、何かがおかしいと思いました。唯一間違っていたのは、十分なデータがなかったことです。その後、約 4 万件の記事をスクレイピングしましたが、それでも結果は受け入れられませんでした。最近、私は 130 万件の記事に対してトレーニングを行いましたが、結果ははるかに優れています。さらに分析した結果、これは主に textsum モデルが抽出的ではなく抽象的であることが原因です。

これが多少役立つことを願っています。130 万と 64 に設定されたバッチの場合、TF 0.9、cuda 7.5、および cudnn 4 を使用して、ハードウェアでモデルを 1 週間半以内にトレーニングすることができました。 、しかし、私はまだそれについて話すことができません。

于 2016-11-21T15:17:41.690 に答える