百科问答小站 logo
百科问答小站 font logo



pytorch 分布式计算 你们都遇到过哪些 坑/bug? 第1页

  

user avatar   fan-ru-chao 网友的相关建议: 
      

说下我之前遇到的坑,如果是用pytorch实现同步梯度更新,然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话,其他卡就会等待,从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住,而且没有报错信息。

当时调了半天,一度以为是pytorch的某种bug,最后检查数据接口才发现了这个小错误。




  

相关话题

  人工智能可以解决人类难题吗? 
  2019年NeurIPS有哪些糟糕的论文? 
  有哪些比较好的机器学习,深度学习的网络资源可利用? 
  Github、Node、React、pytorch 等官网声明支援乌克兰,如何看待开源组织参与政治? 
  为什么现在不看好 CV 方向了呢? 
  有什么算法能对一个长短不一的时间序列进行分类预测? 
  如何看待timm作者发布ResNet新基准:ResNet50提至80.4,这对后续研究会带来哪些影响? 
  机器之心提问:如何评价Facebook Training ImageNet in 1 Hour这篇论文? 
  FPGA做深度学习能走多远? 
  当前(2020年)机器学习中有哪些研究方向特别的坑? 

前一个讨论
怎样理解阻塞非阻塞与同步异步的区别?
下一个讨论
国内做NLP业务的香侬科技值得去吗?





© 2025-01-31 - tinynew.org. All Rights Reserved.
© 2025-01-31 - tinynew.org. 保留所有权利