首页

pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？第1页

1

liustein 网友的相关建议:

其实我从来没有想过要去挽救一个挂掉的训练。。。毕竟人家要是挂了，还是要尽量搞清楚怎么回事。俗话说的好，如果你发现了一只蟑螂，一定在暗处还藏着一万只。。。所以，与其学习和蟑螂共存，不如把他干掉啊。

不过我还是挺好奇的，就搜索了一番，感觉有点价值，就稍微贡献一下我的搜索成果。

Torch Elastic自然是可以，一般做法是经常保存模型，然后出问题Torch Elastic会重启所有节点，重启的时候恢复之前保存的最近的模型和训练状态然后继续训练。

还有一个技巧是使用nccl的超时功能，如果什么都不做，nccl是没有超时功能的。但把NCCL_ASYNC_ERROR_HANDLING的环境变量设置成1，然后在初始化进程的时候这么设置：

       import torch.distributed as dist  dist.init_process_group(     …     backend=“nccl”,     timeout=timedelta(seconds=5) )

nccl就会在节点超时5秒的时候抛出异常。nccl的超时功能加上Torch Elastic，就可以处理因为超时而挂掉的节点了。

一点微小的贡献哈

xiaohuzc 网友的相关建议:

补充一点：torch新出的Join可以处理DDP中数据不均匀的情况，本质上就是忽略那些已经join的node，所以可以在每个node中catch异常，发现异常可以提前join，也是一种处理方式吧。

shaoziqi 网友的相关建议:

Torch Elastic

ding-ming-55-55 网友的相关建议:

各种弹性训练适用范围有限。。。例如用zero之类的训练有点挂了神仙难救，还是勤存ckpt是王道。

pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？的其他答案点击这里

1

相关话题

  2018年了，MXNet 发展的如何了？
  仅就作图而言，Python 和 MATLAB 有可比性吗？
  假如我穿越到2017年第一个提出了Transformer、BERT等模型，我可以保送到清华北大吗？
  梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？
  GitHub 上有哪些，简单、易学的 Python 项目？
  做爬虫开发应该有哪些节操？
  Python和 C 语言有什么不同？
  在编程语言中，循环语句为何选择 while 而不是 when 作为关键词？
  如何评价余凯创立的horizon robotics？
  怎样让机器有意识?

前一个讨论

什么叫文化素养？

下一个讨论

为什么说大模型训练很难？

相关的话题

  卷积神经网络中卷积核是如何学习到特征的？
  为什么计算注意力机制的时候不加偏置项？
  马上计算机研一，想问一下机器学习、深度学习…大家都是怎么入门的？
  PyTorch中在反向传播前为什么要手动将梯度清零？
  Python中除了matplotlib外还有哪些数据可视化的库？
  人工智能就业前景越来越严峻了，你还在坚持吗？
  nlp有哪些值得完整实现一遍的算法?
  如何评价 MXNet 被 Amazon AWS 选为官方深度学习平台？
  如何评价深度学习之父Hinton发布的Capsule论文？
  为什么 Dropbox 等大型服务使用 Python 作为主要语言，即使它的效率比其他编译型语言低几个数量级？
  如何评价 DeepMind 在星际中的失利，以及 OpenAI 在 Dota 上的成功？
  中国和美国谁能成人工智能领域的领军者？
  CVPR 2018 有什么值得关注的亮点？
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2？
  ICLR 2022有哪些值得关注的投稿？
  GPU 与 CPU 比较，为什么说 GPU 更适合深度学习？
  pandas为什么读写文件那么快？
  attention跟一维卷积的区别是啥？
  普通FPGA工程师怎样向人工智能靠拢？
  python中的模块、库、包有什么区别？
  自监督学习（Self-supervised Learning）有什么比较新的思路？
  如果百年后深度学习最终有了公认的数学理论作为基础，能解释实验中的各类玄学，那这个理论会长什么样子？
  3Blue1Brown 的视频是怎么制作的？
  如何看待最近一段时间旷视科技Face++、阿里、小米、京东、科大讯飞和地平线等相继在南京建立研发中心？
  请问应该怎样去学习图像识别和深度学习？
  Python 如何画出漂亮的地图？
  仅就作图而言，Python 和 MATLAB 有可比性吗？
  PHP、Java、Python、C、C++ 这几种编程语言都各有什么特点或优点？
  请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？
  选用什么云服务器做编程学习比较好？

© 2025-06-25 - tinynew.org. All Rights Reserved.
© 2025-06-25 - tinynew.org. 保留所有权利