python - 中断した後、pl.Trainer のトレーニングを再開するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/66429697 2021-03-01T21:09:56.863

929 次

次のように初期化される Model および Trainer pytorch-lightning オブジェクトがあります。

checkpoint_callback = ModelCheckpoint(
    filepath=os.path.join('experiments', experiment_name, '{epoch}-{avg_valid_iou:.4f}'),
    save_top_k=1,
    verbose=True,
    monitor='avg_valid_iou',
    mode='max',
    prefix=''
)
model = nn.DataParallel (FaultNetPL(batch_size=5)).cuda()
trainer = Trainer( checkpoint_callback=checkpoint_callback, 
                  max_epochs=500,gpus=1,
                  logger=logger)

次に、次を使用してトレーニングを開始します。

trainer.fit(model)

しかし、トレーニングが中断されたので、N回目の反復からチェックポイントを使用して再開したいので、モデルとトレーナーを次のように初期化しようとしました:

model = FaultNetPL.load_from_checkpoint('experiments/VNET/epoch=77-avg_valid_iou=0.7604.ckpt',batch_size=5)
trainer = Trainer(resume_from_checkpoint = 'epoch=77-avg_valid_iou=0.7604.ckpt', 
                  checkpoint_callback=checkpoint_callback, 
                  max_epochs=500,gpus=1,
                  logger=logger)

しかし、何度もゼロからトレーニングを開始します (0 番目のエポックと大きなエラーから)。私は何を取りこぼしたか？

python - 中断した後、pl.Trainer のトレーニングを再開するにはどうすればよいですか?

1 に答える 1

Related

Reference