百科问答小站 logo
百科问答小站 font logo



pytorch 分布式计算 你们都遇到过哪些 坑/bug? 第1页

  

user avatar   fan-ru-chao 网友的相关建议: 
      

说下我之前遇到的坑,如果是用pytorch实现同步梯度更新,然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话,其他卡就会等待,从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住,而且没有报错信息。

当时调了半天,一度以为是pytorch的某种bug,最后检查数据接口才发现了这个小错误。




  

相关话题

  如何看待 Nervana 被 Intel 收购? 
  如何评价PyTorch 0.4.0? 
  GAN的生成器是怎么产生图片的? 
  如何评价各种关联因素分析算法,尤其是在算法效果对比方面? 
  为什么多标签分类(不是多类分类)损失函数可以使用Binary Cross Entropy? 
  普通FPGA工程师怎样向人工智能靠拢? 
  NLP 中 prompt learning 有哪些可能的天生缺陷?目前有什么样的方法来解决这样的缺陷? 
  深度学习在生物信息领域有什么应用? 
  如何评价Kaiming He的Momentum Contrast for Unsupervised? 
  如何看待指出 神经网络的训练罪魁祸首是退化一文? 

前一个讨论
怎样理解阻塞非阻塞与同步异步的区别?
下一个讨论
国内做NLP业务的香侬科技值得去吗?





© 2025-07-02 - tinynew.org. All Rights Reserved.
© 2025-07-02 - tinynew.org. 保留所有权利