百科问答小站 logo
百科问答小站 font logo



pytorch 分布式计算 你们都遇到过哪些 坑/bug? 第1页

  

user avatar   fan-ru-chao 网友的相关建议: 
      

说下我之前遇到的坑,如果是用pytorch实现同步梯度更新,然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话,其他卡就会等待,从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住,而且没有报错信息。

当时调了半天,一度以为是pytorch的某种bug,最后检查数据接口才发现了这个小错误。




  

相关话题

  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper? 
  如果你是面试官,你怎么去判断一个面试者的深度学习水平? 
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法? 
  如何解读 Jeff Dean 等联合在 arXiv 上发布的用深度学习分析电子病历的论文? 
  如何评价 2018 年度图灵奖颁发给三位深度学习之父? 
  如何开发一个自己的 TensorFlow? 
  NTIRE2017夺冠的EDSR去掉了Batch Normalization层就获得了提高为什么? 
  把某人的 DNA 序列作为输入,正面照片作为输出,丢到深度神经网络里面学习,可行吗? 
  深度学习方面的科研工作中的实验代码有什么规范和写作技巧?如何妥善管理实验数据? 
  联邦学习在机器学习领域有什么独立存在的价值? 

前一个讨论
怎样理解阻塞非阻塞与同步异步的区别?
下一个讨论
国内做NLP业务的香侬科技值得去吗?





© 2025-06-26 - tinynew.org. All Rights Reserved.
© 2025-06-26 - tinynew.org. 保留所有权利