Can
Can
科技创新赋能高质量发展
首页
分类
标签
相册
链接
关于
首页
分类
标签
相册
链接
关于
问题思路
人工智能
异常检测
7
多标签分类
3
论文分享
15
问题思路
4
摄影
Leetcode
字符串
3
栈与队列
3
前端
后端
Java
1
运维
交付
测试
其他
PyTorch DDP详解
框架图 命令 python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 --node_rank=0 --master_addr="localhost" --master_port=12355 ddp.py 在分布式训练中,使用
问题思路
DDP
3
0
0
2025-04-25
Pytorch DDP运行时报错
问题 最近在写论文的过程中,需要做模块的消融实验,假设我的模型结构是模块A + 模块B + 模块C,现在我需要单独验证模块B对于模型的提升效果,我直接在模型的forward()函数中注释掉了有关于模块A和模块C的调用代码,这样在单卡训练的时候是没有问题(无报错信息),但是在DDP(Distribut
问题思路
人工智能
DDP
5
0
0
2025-04-18
解决PyTorch DDP训练卡住问题
使用DDP进行训练时,第一个epoch能够正常训练和验证,并输出相应的指标,但在第二个epoch开始后就卡住了,同时显卡的占用率高达100%,持续了很长时间且始终无法降下来。单卡训练是没有问题的。
人工智能
问题思路
DDP
71
0
0
2024-12-16
AI大数据集加载优化思路
使用项目中MS-COCO_2014数据集的加载思路,加载自己的排水管数据集Sewer-ML。由于COCO数据集本身数据量就不大,且在_load_dataset这个操作之前,我们就已经提前对coco的标签数据进行了处理,处理后的json文件仅剩下(图片相对路径、对应的label、所有类别),故使用常规的for循环,在for循环中添加路径替换和one-hot-encoding是不会消耗太多时间的。
人工智能
问题思路
12
0
0
2024-12-06