首页

pytorch 分布式计算你们都遇到过哪些坑/bug？第1页

1

fan-ru-chao 网友的相关建议:

说下我之前遇到的坑，如果是用pytorch实现同步梯度更新，然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话，其他卡就会等待，从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住，而且没有报错信息。

当时调了半天，一度以为是pytorch的某种bug，最后检查数据接口才发现了这个小错误。

pytorch 分布式计算你们都遇到过哪些坑/bug？的其他答案点击这里

1

相关话题

  ICLR 2022有哪些值得关注的投稿？
  pytorch 的高层库ignite怎么样？
  现在的人工智能是否走上了数学的极端？
  如何看待 Nervana 被 Intel 收购？
  transformer中的Q,K,V到底是什么？
  如何直观地解释 backpropagation 算法？
  为什么VAE-GAN的训练很容易发生梯度爆炸，如何避免？
  把某人的 DNA 序列作为输入，正面照片作为输出，丢到深度神经网络里面学习，可行吗？
  如何理解空洞卷积（dilated convolution）？
  Graph Attention Network的本质是什么？

前一个讨论

怎样理解阻塞非阻塞与同步异步的区别？

下一个讨论

国内做NLP业务的香侬科技值得去吗？

相关的话题

  行人轨迹预测有哪些有效的方法和普遍的base方法？或者public dataset?
  如何评价Facebook AI提出的ResMLP，对比Google的MLP-Mixer?
  基于计算机视觉从一张图片重建人体的三维网格，能否获取腰围、胸围、臂长、腿长等数据？
  如何评价移动端吊打一切万众期待的商汤深度学习推理框架PPL开源了却没有支持移动端？
  scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?
  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode？
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2？
  如果百年后深度学习最终有了公认的数学理论作为基础，能解释实验中的各类玄学，那这个理论会长什么样子？
  当前人工智能特别是深度学习最前沿的研究方向是什么？
  如何看待周志华等人的新书《机器学习理论导引》？
  如何评价剑桥，腾讯， DeepMind以及港大团队新作 SimCTG ?
  搞机器学习的生环化材是天坑吗？
  为什么 larger batch size 对对比学习的影响比对监督学习的影响要大？
  如何看待End-to-End Object Detection with Transformers？
  中国和美国谁能成人工智能领域的领军者？
  卷积神经网络（CNN）的结构设计都有哪些思想？
  现在的人工智能是否走上了数学的极端？
  如何看待谷歌公开 tensorflow 专用处理器 TPU?
  如何评价生成模型框架 ZhuSuan?
  ICML2020有哪些值得关注的工作?
  word2vec有什么应用？
  如何理解 Swin Transformer 和 Vision Transformer不同任务上的差异？
  如何看待Capsule Network在NLP领域的潜力？
  消融实验是什么？
  神经网络中，bias有什么用，为什么要设置bias，当加权和大于某值时，激活才有意义？
  深度学习和强化学习之间的差别有多大？
  2018年了，MXNet 发展的如何了？
  2021年深度学习在哪些应用上有实质进展？
  多任务学习中loss多次backward和loss加和后backward有区别吗？
  如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet？

© 2025-07-02 - tinynew.org. All Rights Reserved.
© 2025-07-02 - tinynew.org. 保留所有权利