百科问答小站 logo
百科问答小站 font logo



pytorch 分布式计算 你们都遇到过哪些 坑/bug? 第1页

  

user avatar   fan-ru-chao 网友的相关建议: 
      

说下我之前遇到的坑,如果是用pytorch实现同步梯度更新,然后数据接口是自己写的话一定要注意保证每张卡分配的batch数是一样的。因为如果某张卡少了一个batch的话,其他卡就会等待,从而程序卡在torch.all_reduce()上。最后的情况就会出现在第一个epoch结尾处程序卡住,而且没有报错信息。

当时调了半天,一度以为是pytorch的某种bug,最后检查数据接口才发现了这个小错误。




  

相关话题

  如何评价Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上达到SOTA? 
  Google 的神经网络生成图像 (Inceptionism) 是怎么做到的? 
  如何评价Momenta ImageNet 2017夺冠架构SENet? 
  如何激怒一位人工智能(机器学习、深度学习、强化学习等)爱好者? 
  请问一下,机器学习领域的联邦学习技术,目前看到最多的是微众银行,国内还有哪些顶级专家及机构和大学? 
  如何评价DALL-E模型的实现? 
  硕士方向,选择迁移学习还是自然语言处理? 
  基于深度学习的自然语言处理在 2016 年有哪些值得期待的发展? 
  如何将某个分布作为机器学习的特征? 
  二分类问题,应该选择sigmoid还是softmax? 

前一个讨论
怎样理解阻塞非阻塞与同步异步的区别?
下一个讨论
国内做NLP业务的香侬科技值得去吗?





© 2025-01-31 - tinynew.org. All Rights Reserved.
© 2025-01-31 - tinynew.org. 保留所有权利