首页

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？第1页

1

eric314 网友的相关建议:

这篇paper中心思想很简洁，但是实现起来trick茫茫多。另外Google一如既往的没有公开代码，个人感觉又是一篇看起来很美但是没人能重现的典型G家paper。。。

中心思想一幅图两条公式就总结完了：

简单来说每个E（Expert）是一个网络，G是用softmax算出来的一个类似于attention的gate，每个sample会根据gate被分配给k个Expert，随后再加起来。这样的好处是大大提高了模型参数数量，但是计算量不会提高太多。

可但是，细节里面trick太多了，比如G并不是简单的Softmax算出来的，很丑陋的加了个noise，然后更丑陋的强行取了k个。noise的计算方法也很丑，主要目的是为了防止训练开始的时候收敛到永远用固定的k个Expert。这里应该有不小的研究空间，可以做的更系统更美观一点。。。

这个想法看起来比较像attention，但是我认为首先应该联系最近的Xeption（Google）和ResNext（Facebook）来看。一个很有意思的insight是：跟传统机器学习模型不同，一个DNN的计算量和它含有的参数数量并不一定要是正相关的。通过把一层拆成很多并行的层，可以固定计算量而调整参数的数量。

现有经验看来，parameter数量决定了一个DNN有多容易overfit/underfit（传统VC维分析），但是同样参数数量的情况下计算量对DNN最终建模能力的影响很大，甚至起到决定性作用。于是通过固定计算量，单独改变参数数量可以有效的解决overfitting/underfitting的问题。我认为这个方向上还大有文章可以做，想搞深度学习理论的同学也可以关注一下。

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？的其他答案点击这里

1

相关话题

  深度学习图像处理什么时候用到GPU？
  如何用一句话证明自然语言处理很难？
  mxnet的并行计算为什么这么牛，是什么原理？
  为什么中文 NLP 数据集这么少？
  有哪些关于机器学习的真相还鲜为人知？
  从今年校招来看，机器学习等算法岗位应届生超多，竞争激烈，未来 3-5 年机器学习相关就业会达到饱和吗？
  马上计算机研一，想问一下机器学习、深度学习…大家都是怎么入门的？
  为什么现在有这么多人工智能无用论？
  为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的？
  如何评价 Exploring Simple Siamese Learning?

前一个讨论

如何评价 NVIDIA 发布的 DGX-1？

下一个讨论

mxnet的并行计算为什么这么牛，是什么原理？

相关的话题

  如何看待MXNet在CVPR2017上公布的gluon接口？
  为什么很少人用FFT加速CNN卷积层的运算？
  如何将某个分布作为机器学习的特征？
  深度学习火热兴起后，隐马尔可夫模型（HMM）还有何独到之处，是不是几乎可被深度学习模型给替代了？
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果？
  pytorch dataloader数据加载占用了大部分时间，各位大佬都是怎么解决的？
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  深度学习底层开发对数学有哪些要求？
  是不是对于任意 n×n 大小的围棋棋盘，人类都赢不了 AlphaGo Zero 了？
  如何评价论文「Stochastic Training is Not Necessary ...」?
  如何评价deepmind最新在nature上发表的论文《在人工网络中用网格样表征进行基于向量的导航》？
  视觉Transformer如何优雅地避开位置编码？
  深度学习（机器学习）的下一步如何发展？
  如何看待指出神经网络的训练罪魁祸首是退化一文？
  人工智能在生活中的应用都有哪些？
  生成对抗网络的毕设怎么上手？
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  关于tensorflow中的滑动平均？
  Graph Attention Network的本质是什么？
  如何开发一个自己的 TensorFlow？
  多任务学习中loss多次backward和loss加和后backward有区别吗？
  人工智能相关的岗位薪酬状况如何？
  在计算资源有限的情况下，有什么深度学习的选题可以推荐/避免？
  用生成模型做数据增强data augmentation时，如何从合成数据中筛选出质量较好的样本？
  如何评价 2018 年度图灵奖颁发给三位深度学习之父？
  如何评价MXNet发布的1.0版本？
  如何评价「Patches are all you need」?
  为什么有些学数学的看不惯甚至鄙视 Deep Learning？
  如何评价微软正在开发的人工智能编程软件 DeepCoder？
  如何看待End-to-End Object Detection with Transformers？

© 2025-06-26 - tinynew.org. All Rights Reserved.
© 2025-06-26 - tinynew.org. 保留所有权利