首页

pytorch 分布式计算你们都遇到过哪些坑/bug？第1页

1

fan-ru-chao 网友的相关建议:

说下我之前遇到的坑，如果是用pytorch实现同步梯度更新，然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话，其他卡就会等待，从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住，而且没有报错信息。

当时调了半天，一度以为是pytorch的某种bug，最后检查数据接口才发现了这个小错误。

pytorch 分布式计算你们都遇到过哪些坑/bug？的其他答案点击这里

1

相关话题

  如何看待 Nervana 被 Intel 收购？
  如何评价PyTorch 0.4.0？
  GAN的生成器是怎么产生图片的？
  如何评价各种关联因素分析算法,尤其是在算法效果对比方面?
  为什么多标签分类（不是多类分类）损失函数可以使用Binary Cross Entropy？
  普通FPGA工程师怎样向人工智能靠拢？
  NLP 中 prompt learning 有哪些可能的天生缺陷？目前有什么样的方法来解决这样的缺陷？
  深度学习在生物信息领域有什么应用？
  如何评价Kaiming He的Momentum Contrast for Unsupervised?
  如何看待指出神经网络的训练罪魁祸首是退化一文？

前一个讨论

怎样理解阻塞非阻塞与同步异步的区别？

下一个讨论

国内做NLP业务的香侬科技值得去吗？

相关的话题

  新手如何实现个简单AutoML框架。有参考的github开源项目介绍吗？
  现在的人工智能是否走上了数学的极端？
  如何评价2020年计算机视觉顶会CVPR投稿量破万的现象？
  有哪些比较好的机器学习，深度学习的网络资源可利用？
  有谁照着论文把 AlphaGo 重现出来了？
  如何理解链接预测（link prediction）？
  graph convolutional network有什么比较好的应用task？
  如何评价最新的Octave Convolution？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  人工智能相关的岗位薪酬状况如何？
  机器学习，深度神经网络等方法是否是正确的方向？
  pytorch ddp训练中一个node fail，导致整个训练失败，有可能解决吗？
  如何评价 DeepMind 公布的可生成算法竞赛解题代码的 AlphaCode？
  如何直观地解释 backpropagation 算法？
  为什么强大的 MXNet 一直火不起来？
  神经网络中 warmup 策略为什么有效；有什么理论解释么？
  机器学习里面的流形都是怎么用的？
  在算力充沛，深度学习模型大行其道的今天，传统机器学习的未来在哪里？
  在算力充沛，深度学习模型大行其道的今天，传统机器学习的未来在哪里？
  你有哪些deep learning（rnn、cnn）调参的经验？
  如何评价各种关联因素分析算法,尤其是在算法效果对比方面?
  有哪些令你印象深刻的魔改transformer？
  2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？
  迁移学习入门，新手该如何下手？
  是否存在一个字符串，它的md5值是其自身？
  Transformer是如何处理可变长度数据的？
  如何看待 Google TPU？寒武纪芯片较之有哪些优势与不足？
  算法工程师是否应该持续读论文？
  如何评价微软提出的无监督视觉模型BEiT：ImageNet达到88.6，ADE20K达到57.0？
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法?

© 2025-07-02 - tinynew.org. All Rights Reserved.
© 2025-07-02 - tinynew.org. 保留所有权利