python - PyTorch Lightning で複数のモデルを実行する際の問題

Question

私は、それぞれ独自の TensorBoard プロットとログを使用して、Lightning を使用して数十の個別のモデル (>50) をトレーニングする必要があるシステムを開発しています。私の現在の実装には、モデルごとに 1 つの Trainer オブジェクトがあり、~90 の Trainer オブジェクトを超えると、このエラーが発生するようです。興味深いことに、エラーは、.fit() ではなく、.test() メソッドを実行したときにのみ表示されます。

Traceback (most recent call last):
  File "lightning/main_2.py", line 193, in <module>
    main()
  File "lightning/main_2.py", line 174, in main
    new_trainer.test(model=new_model, test_dataloaders=te_loader)
  File "\Anaconda3\envs\pyenv\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 1279, in test
    results = self.__test_given_model(model, test_dataloaders)
  File "\Anaconda3\envs\pyenv\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 1343, in __test_given_model
    self.set_random_port(force=True)
  File "\Anaconda3\envs\pyenv\lib\site-packages\pytorch_lightning\trainer\distrib_data_parallel.py", line 398, in set_random_port
    default_port = RANDOM_PORTS[-1]
IndexError: index -1 is out of bounds for axis 0 with size 0

私はライトニングを始めたばかりなので、トレーナー/モデルを 1 つ持つことが最善のアプローチかどうかはわかりません。ただし、各モデルから個別のプロットが必要であり、複数のモデルに対して単一のトレーナーを使用すると、結果が上書きされるようです。

参考までに、トレーナーのさまざまなリストを次のように定義しています。

for i in range(args["num_users"]):
    trainer_list_0.append(Trainer(max_epochs=args["epochs"], gpus=1, default_root_dir=args["save_path"],
                                          fast_dev_run=args["fast_dev_run"], weights_summary=None))
    trainer_list_1.append(Trainer(max_epochs=args["epochs"], gpus=1, default_root_dir=args["save_path"],
                                            fast_dev_run=args["fast_dev_run"], weights_summary=None))
    trainer_list_2.append(Trainer(max_epochs=args["epochs"], gpus=1, default_root_dir=args["save_path"],
                                            fast_dev_run=args["fast_dev_run"], weights_summary=None))

トレーニングに関しては：

for i in range(args["num_users"]):
    trainer_list_0[i].fit(model_list_0[i], train_dataloader=dataloader_list[i],
                                      val_dataloaders=val_loader)
    trainer_list_1[i].fit(model_list_1[i], train_dataloader=dataloader_list[i],
                                        val_dataloaders=val_loader)
    trainer_list_2[i].fit(model_list_2[i], train_dataloader=dataloader_list[i],
                                        val_dataloaders=val_loader)

そしてテスト：

for i in range(args["num_users"]):
    trainer_list_0[i].test(test_dataloaders=te_loader)
    trainer_list_1[i].test(test_dataloaders=te_loader)
    trainer_list_2[i].test(test_dataloaders=te_loader)

ありがとう！

python - PyTorch Lightning で複数のモデルを実行する際の問題

1 に答える 1

Related

Reference