CanTechLab

Can

问题思路

解决PyTorch DDP训练卡住问题

使用DDP进行训练时,第一个epoch能够正常训练和验证,并输出相应的指标,但在第二个epoch开始后就卡住了,同时显卡的占用率高达100%,持续了很长时间且始终无法降下来。单卡训练是没有问题的。
DDP
18
0
0
2024-12-16

AI大数据集加载优化思路

使用项目中MS-COCO_2014数据集的加载思路,加载自己的排水管数据集Sewer-ML。由于COCO数据集本身数据量就不大,且在_load_dataset这个操作之前,我们就已经提前对coco的标签数据进行了处理,处理后的json文件仅剩下(图片相对路径、对应的label、所有类别),故使用常规的for循环,在for循环中添加路径替换和one-hot-encoding是不会消耗太多时间的。
4
0
0
2024-12-06