Can

Can

科技创新赋能高质量发展

问题思路

PyTorch DDP详解

框架图命令 python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 --master_addr="localhost" --master_port=12355 ddp.py 在分布式训练中，使用

问题思路

DDP

3

0

0

2025-04-25

Pytorch DDP运行时报错

问题最近在写论文的过程中，需要做模块的消融实验，假设我的模型结构是模块A + 模块B + 模块C，现在我需要单独验证模块B对于模型的提升效果，我直接在模型的forward()函数中注释掉了有关于模块A和模块C的调用代码，这样在单卡训练的时候是没有问题（无报错信息），但是在DDP（Distribut

问题思路人工智能

DDP

5

0

0

2025-04-18

解决PyTorch DDP训练卡住问题

使用DDP进行训练时，第一个epoch能够正常训练和验证，并输出相应的指标，但在第二个epoch开始后就卡住了，同时显卡的占用率高达100%，持续了很长时间且始终无法降下来。单卡训练是没有问题的。

人工智能问题思路

DDP

71

0

0

2024-12-16

AI大数据集加载优化思路

使用项目中MS-COCO_2014数据集的加载思路，加载自己的排水管数据集Sewer-ML。由于COCO数据集本身数据量就不大，且在_load_dataset这个操作之前，我们就已经提前对coco的标签数据进行了处理，处理后的json文件仅剩下（图片相对路径、对应的label、所有类别），故使用常规的for循环，在for循环中添加路径替换和one-hot-encoding是不会消耗太多时间的。

人工智能问题思路

12

0

0

2024-12-06