python - どの Keras モデルが優れているかを見分ける方法は?

Question

2 つの Keras モデルを比較してどちらが優れているかを確認するために使用する出力の精度がわかりません。

"acc" (トレーニングデータから?) と "val acc" (検証データから?) のどちらを使用しますか?

エポックごとに異なる acc と val acc があります。モデル全体の acc または val acc を知るにはどうすればよいですか? モデル全体の acc または val acc を見つけるために、すべてのエポック acc または val acc を平均しますか?

モデル 1 出力

Train on 970 samples, validate on 243 samples
Epoch 1/20
0s - loss: 0.1708 - acc: 0.7990 - val_loss: 0.2143 - val_acc: 0.7325
Epoch 2/20
0s - loss: 0.1633 - acc: 0.8021 - val_loss: 0.2295 - val_acc: 0.7325
Epoch 3/20
0s - loss: 0.1657 - acc: 0.7938 - val_loss: 0.2243 - val_acc: 0.7737
Epoch 4/20
0s - loss: 0.1847 - acc: 0.7969 - val_loss: 0.2253 - val_acc: 0.7490
Epoch 5/20
0s - loss: 0.1771 - acc: 0.8062 - val_loss: 0.2402 - val_acc: 0.7407
Epoch 6/20
0s - loss: 0.1789 - acc: 0.8021 - val_loss: 0.2431 - val_acc: 0.7407
Epoch 7/20
0s - loss: 0.1789 - acc: 0.8031 - val_loss: 0.2227 - val_acc: 0.7778
Epoch 8/20
0s - loss: 0.1810 - acc: 0.8010 - val_loss: 0.2438 - val_acc: 0.7449
Epoch 9/20
0s - loss: 0.1711 - acc: 0.8134 - val_loss: 0.2365 - val_acc: 0.7490
Epoch 10/20
0s - loss: 0.1852 - acc: 0.7959 - val_loss: 0.2423 - val_acc: 0.7449
Epoch 11/20
0s - loss: 0.1889 - acc: 0.7866 - val_loss: 0.2523 - val_acc: 0.7366
Epoch 12/20
0s - loss: 0.1838 - acc: 0.8021 - val_loss: 0.2563 - val_acc: 0.7407
Epoch 13/20
0s - loss: 0.1835 - acc: 0.8041 - val_loss: 0.2560 - val_acc: 0.7325
Epoch 14/20
0s - loss: 0.1868 - acc: 0.8031 - val_loss: 0.2573 - val_acc: 0.7407
Epoch 15/20
0s - loss: 0.1829 - acc: 0.8072 - val_loss: 0.2581 - val_acc: 0.7407
Epoch 16/20
0s - loss: 0.1878 - acc: 0.8062 - val_loss: 0.2589 - val_acc: 0.7407
Epoch 17/20
0s - loss: 0.1833 - acc: 0.8072 - val_loss: 0.2613 - val_acc: 0.7366
Epoch 18/20
0s - loss: 0.1837 - acc: 0.8113 - val_loss: 0.2605 - val_acc: 0.7325
Epoch 19/20
0s - loss: 0.1906 - acc: 0.8010 - val_loss: 0.2555 - val_acc: 0.7407
Epoch 20/20
0s - loss: 0.1884 - acc: 0.8062 - val_loss: 0.2542 - val_acc: 0.7449

モデル 2 出力

Train on 970 samples, validate on 243 samples
Epoch 1/20
0s - loss: 0.1735 - acc: 0.7876 - val_loss: 0.2386 - val_acc: 0.6667
Epoch 2/20
0s - loss: 0.1733 - acc: 0.7825 - val_loss: 0.1894 - val_acc: 0.7449
Epoch 3/20
0s - loss: 0.1781 - acc: 0.7856 - val_loss: 0.2028 - val_acc: 0.7407
Epoch 4/20
0s - loss: 0.1717 - acc: 0.8021 - val_loss: 0.2545 - val_acc: 0.7119
Epoch 5/20
0s - loss: 0.1757 - acc: 0.8052 - val_loss: 0.2252 - val_acc: 0.7202
Epoch 6/20
0s - loss: 0.1776 - acc: 0.8093 - val_loss: 0.2449 - val_acc: 0.7490
Epoch 7/20
0s - loss: 0.1833 - acc: 0.7897 - val_loss: 0.2272 - val_acc: 0.7572
Epoch 8/20
0s - loss: 0.1827 - acc: 0.7928 - val_loss: 0.2376 - val_acc: 0.7531
Epoch 9/20
0s - loss: 0.1795 - acc: 0.8062 - val_loss: 0.2445 - val_acc: 0.7490
Epoch 10/20
0s - loss: 0.1746 - acc: 0.8103 - val_loss: 0.2491 - val_acc: 0.7449
Epoch 11/20
0s - loss: 0.1831 - acc: 0.8082 - val_loss: 0.2477 - val_acc: 0.7449
Epoch 12/20
0s - loss: 0.1831 - acc: 0.8113 - val_loss: 0.2496 - val_acc: 0.7490
Epoch 13/20
0s - loss: 0.1920 - acc: 0.8000 - val_loss: 0.2459 - val_acc: 0.7449
Epoch 14/20
0s - loss: 0.1945 - acc: 0.7928 - val_loss: 0.2446 - val_acc: 0.7490
Epoch 15/20
0s - loss: 0.1852 - acc: 0.7990 - val_loss: 0.2459 - val_acc: 0.7449
Epoch 16/20
0s - loss: 0.1800 - acc: 0.8062 - val_loss: 0.2495 - val_acc: 0.7449
Epoch 17/20
0s - loss: 0.1891 - acc: 0.8000 - val_loss: 0.2469 - val_acc: 0.7449
Epoch 18/20
0s - loss: 0.1891 - acc: 0.8041 - val_loss: 0.2467 - val_acc: 0.7531
Epoch 19/20
0s - loss: 0.1853 - acc: 0.8072 - val_loss: 0.2511 - val_acc: 0.7449
Epoch 20/20
0s - loss: 0.1905 - acc: 0.8062 - val_loss: 0.2460 - val_acc: 0.7531

score 63 · Accepted Answer

"acc" (トレーニングデータから?) と "val acc" (検証データから?) のどちらを使用しますか?

モデルが新しいデータに一般化する能力を推定したい場合 (これはおそらくやりたいことです)、検証の精度を調べます。これは、検証の分割には、モデルがトレーニング中に決して見ないデータのみが含まれているためです。したがって、ただ暗記することはできません。

トレーニングデータの精度 ("acc") が向上し続け、検証データの精度 ("val_acc") が低下する場合は、過剰適合の状況にある可能性があります。つまり、モデルは基本的にデータを記憶し始めます。

エポックごとに異なる acc と val acc があります。モデル全体の acc または val acc を知るにはどうすればよいですか? モデル全体の acc または val acc を見つけるために、すべてのエポック acc または val acc を平均しますか?

各エポックは、すべてのデータに対するトレーニングの実行です。その実行中に、モデルのパラメーターは損失関数に従って調整されます。結果は、新しいデータに一般化する特定の機能を持つパラメーターのセットです。その能力は検証精度に反映されます。したがって、すべてのエポックを独自のモデルと考えてください。これは、別のエポック用にトレーニングされた場合に良くなったり悪くなったりする可能性があります。良くなったか悪くなったかは、検証精度の変化によって判断されます (より良い = 検証精度が向上)。したがって、検証精度が最も高いエポックのモデルを選択します。異なるエポックで精度を平均しないでください。あまり意味がありません。Keras コールバックModelCheckpointを使用して、モデルを最高の検証精度で自動的に保存できます (コールバックのドキュメントを参照してください)。

モデル 1 の最高精度はで0.7737、モデル 2 の最高精度はです0.7572。したがって、モデル 1 (エポック 3) の方が優れていると見なす必要があります。0.7737がランダムな外れ値だった可能性はありますが。

python - どの Keras モデルが優れているかを見分ける方法は?

2 に答える 2

Related

Reference