百科问答小站 logo
百科问答小站 font logo



pytorch 分布式计算 你们都遇到过哪些 坑/bug? 第1页

  

user avatar   fan-ru-chao 网友的相关建议: 
      

说下我之前遇到的坑,如果是用pytorch实现同步梯度更新,然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话,其他卡就会等待,从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住,而且没有报错信息。

当时调了半天,一度以为是pytorch的某种bug,最后检查数据接口才发现了这个小错误。




  

相关话题

  KL散度衡量的是两个概率分布的距离吗? 
  AlphaGo 与李世石的对战会推动人类的极限还是机器学习的进步和觉醒? 
  视觉算法的工业部署及落地方面的技术知识,怎么学? 
  如何评价陈天奇团队新开源的TVM? 
  什么是迁移学习 (Transfer Learning)?这个领域历史发展前景如何? 
  mxnet的并行计算为什么这么牛,是什么原理? 
  2022 年初,你认为哪项成果代表了现在人工智能的最高水平? 
  为什么deep lab v3起,输出不再接 DenseCRF了? 
  卷积神经网络中卷积核是如何学习到特征的? 
  现大二,准备做大学生创新创业项目计划 ,目前定的方向是深度学习+畜牧业/养殖业,有什么建议给我们吗? 

前一个讨论
怎样理解阻塞非阻塞与同步异步的区别?
下一个讨论
国内做NLP业务的香侬科技值得去吗?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利