Can

Can

科技创新赋能高质量发展

DDP

#TPAMI ¹ #NeurIPS ¹ #DDP ⁴ #Knowledge Distillation ¹ #AAAI ¹ #VLP ¹ #AE ² #ACM MM ² #TNNLS ¹ #arXiv ² #LLM ² #ECCV ¹ #DDPM ¹ #压缩/解压 ¹ #iForest ¹ #ICDM ¹ #ViT ¹ #ICCV ¹ #ResNet ¹ #CVPR ⁷ #CNN ¹ #MNIST ¹ #PyTorch ¹ #栈 ³ #剪枝 ¹ #数组 ⁶ #暴力 ² #链表 ⁴ #SSM ¹ #递归 ¹ #链表 ² #模拟 ¹ #滑动窗口 ¹ #STL ¹ #二分查找 ¹ #medium题 ¹¹ #动态规划 ² #哈希表 ⁶ #双指针 ¹³ #easy题 ¹⁹

PyTorch DDP详解

框架图命令 python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 --master_addr="localhost" --master_port=12355 ddp.py 在分布式训练中，使用

问题思路

DDP

3

0

0

2025-04-25

DDP训练模型的数据加载问题(SSD Vs HDD)

问题目前在研究下水管缺陷多标签分类的相关内容，使用的是公开数据集Sewer-ML，该数据集共130万张照片，17类缺陷，占用存储300G。组内服务器有两个硬盘（1T的NVMe SSD和15T的HDD），目前我是将数据集存储到了HDD上。由于数据量很大，我使用DDP并行训练模型，但是在训练过程中我发

运维

DDP

6

0

0

2025-04-25

Pytorch DDP运行时报错

问题最近在写论文的过程中，需要做模块的消融实验，假设我的模型结构是模块A + 模块B + 模块C，现在我需要单独验证模块B对于模型的提升效果，我直接在模型的forward()函数中注释掉了有关于模块A和模块C的调用代码，这样在单卡训练的时候是没有问题（无报错信息），但是在DDP（Distribut

问题思路人工智能

DDP

5

0

0

2025-04-18

解决PyTorch DDP训练卡住问题

使用DDP进行训练时，第一个epoch能够正常训练和验证，并输出相应的指标，但在第二个epoch开始后就卡住了，同时显卡的占用率高达100%，持续了很长时间且始终无法降下来。单卡训练是没有问题的。

人工智能问题思路

DDP

71

0

0

2024-12-16