首页

mxnet的并行计算为什么这么牛，是什么原理？第1页

1

james-82 网友的相关建议:

个人理解

通过执行引擎来达到计算和收发的并行，例如后向时算完某一个参数的梯度后，执行引擎会立刻提交到发送队列中开始发送，这时候其他的后向计算还在进行中。

此外发送与接收的队列有优先级，时刻保证最高优先级参数的接收与发送

上述机制保证了对于较深的网络能够达到了很好的线性加速比，不过对于浅层网络，比如只有两层lstm的 encoder decoder这种方法的并行效果欠佳。

总的来说还是灰常牛逼滴！

mli65 网友的相关建议:

简单来说是当计算开销大于通讯开销时，通过并行两者可以达到将近线性的加速。

具体可参见 Sec 4.4 和 4.5

http://www. cs.cmu.edu/~muli/mu-the sis.pdf

ps: 这里有新的在256块GPU上的加速，和10台机器vs单机的收敛：

详细见：

mxnet的并行计算为什么这么牛，是什么原理？的其他答案点击这里

1

相关话题

  如何评价CVPR2019程序主席Derek Hoiem的论点：计算机视觉只是记忆，不是智能？
  Yoshua Bengio为什么能跟Hinton、LeCun相提并论？？
  能否使用神经网络来判断奇偶数？
  为什么在SGD中使用L1正则化很难获得稀疏性？
  如果学习从零开始学习Pytorch,有优秀的开源项目可以推荐吗？
  能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？
  有谁照着论文把 AlphaGo 重现出来了？
  多模态方面，有哪些牛组值得我们follow他们的工作？
  深度学习attention机制中的Q,K,V分别是从哪来的？
  为什么强大的 MXNet 一直火不起来？

前一个讨论

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？

下一个讨论

如何评价 MXNet 被 Amazon AWS 选为官方深度学习平台？

相关的话题

  如何用简单易懂的例子解释隐马尔可夫模型？
  有谁给解释一下流形以及流形正则化？
  机器学习专家与统计学家观点上有哪些不同？
  用生成模型做数据增强data augmentation时，如何从合成数据中筛选出质量较好的样本？
  神经网络训练多个epoch，写论文的时候可以取最好的效果那一个epoch作为结果吗？
  为什么熵值最大的分布状态是正态分布而不是均匀分布？
  graph convolutional network有什么比较好的应用task？
  如何看待 Larrabee 之父 Tom Forsyth 重加入 Intel？英特尔为何下注独立显卡？
  有哪些看了让你醍醐灌顶的书籍、论文、期刊，使你对如何做数据挖掘、特征工程、统计挖掘有了眉目？
  如何评价FAIR提出的ConvNeXt：CNN匹敌Swin Transformer?
  编写基于机器学习的程序，有哪些编写和调试的经验和窍门？
  先进的图像识别怎样改变 AV 产业？
  PyTorch中在反向传播前为什么要手动将梯度清零？
  写深度学习代码是先写model还是dataset还是train呢，有个一般化的顺序吗？
  年轻人为什么要做期货？
  你有哪些deep learning（rnn、cnn）调参的经验？
  现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架？
  老师给了一个神经网络的程序，他之前是跑通了的，但是我迭代几十次或者一百多次就报错。这个怎么解决?
  FPGA做深度学习能走多远？
  如何评价百度自动驾驶 ApolloAuto 在 Github 上发布的代码？
  是不是对于任意 n×n 大小的围棋棋盘，人类都赢不了 AlphaGo Zero 了？
  如何评价 DeepMind 在星际中的失利，以及 OpenAI 在 Dota 上的成功？
  如何评价哈工大的左旺孟老师？
  如何评价Yann LeCun宣称『他已经做好放弃概率论的准备』？
  有没有哪些人工的工作是无法被机器替代的？
  深度学习火热兴起后，隐马尔可夫模型（HMM）还有何独到之处，是不是几乎可被深度学习模型给替代了？
  《失控玩家》中的游戏有可能实现出来吗？
  人们是如何想到奇异值分解的？
  算法岗位真的需要顶会才能入场吗？
  如何看待NLP领域最近比较火的prompt，能否借鉴到CV领域？

© 2025-06-15 - tinynew.org. All Rights Reserved.
© 2025-06-15 - tinynew.org. 保留所有权利