CanTechLab

Can

DDP

解决PyTorch DDP训练卡住问题

使用DDP进行训练时,第一个epoch能够正常训练和验证,并输出相应的指标,但在第二个epoch开始后就卡住了,同时显卡的占用率高达100%,持续了很长时间且始终无法降下来。单卡训练是没有问题的。
DDP
18
0
0
2024-12-16