PyTorch 分布式训练 (DP/DDP/torchrun/多机多卡) ＜笔记＞

武飞扬头像

xiangyong58

2024-04-10 帮助1人

1、DataParallel

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
### 第一步：构建模型
'''
model 需要分发的模型
device_ids 可分发的gpu，默认分发到所有看见GPU（环境变量设置的）
output_device 结果输出设备通常设置成逻辑gpu的第一个
'''
model = nn.DataParallel( model, device_ids=range(args.gpus), output_device=None)
### 第二步：数据迁移
inputs=inputs.to(device)
labels=labels.to(device)
#此处的device通常应为模型输出的output_device，否则无法计算loss

2、DistributedDataParallel

#运行方式一：（旧）
python -m torch.distributed.launch \
--nnodes 1 \
--nproc_per_node=4 \
YourScript.py
# nnodes: 表示有多少个节点，可以通俗的理解为有多少台机器
# nproc_per_node 表示每个节点上有多少个进程，每个进程一般独占一块GPU
#运行方式二：
torchrun main.py #除了--use_env参数，其他torch.distributed.launch所使用的参数均可使用 #如nnodes、nproc_per_node
OMP_NUM_THREADS=1 torchrun --nnodes

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhgagbie

系列文章

同类精品

继续加载