次のように初期化される Model および Trainer pytorch-lightning オブジェクトがあります。
checkpoint_callback = ModelCheckpoint(
filepath=os.path.join('experiments', experiment_name, '{epoch}-{avg_valid_iou:.4f}'),
save_top_k=1,
verbose=True,
monitor='avg_valid_iou',
mode='max',
prefix=''
)
model = nn.DataParallel (FaultNetPL(batch_size=5)).cuda()
trainer = Trainer( checkpoint_callback=checkpoint_callback,
max_epochs=500,gpus=1,
logger=logger)
次に、次を使用してトレーニングを開始します。
trainer.fit(model)
しかし、トレーニングが中断されたので、N回目の反復からチェックポイントを使用して再開したいので、モデルとトレーナーを次のように初期化しようとしました:
model = FaultNetPL.load_from_checkpoint('experiments/VNET/epoch=77-avg_valid_iou=0.7604.ckpt',batch_size=5)
trainer = Trainer(resume_from_checkpoint = 'epoch=77-avg_valid_iou=0.7604.ckpt',
checkpoint_callback=checkpoint_callback,
max_epochs=500,gpus=1,
logger=logger)
しかし、何度もゼロからトレーニングを開始します (0 番目のエポックと大きなエラーから)。私は何を取りこぼしたか?