首页

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？第1页

1

eric314 网友的相关建议:

这篇paper中心思想很简洁，但是实现起来trick茫茫多。另外Google一如既往的没有公开代码，个人感觉又是一篇看起来很美但是没人能重现的典型G家paper。。。

中心思想一幅图两条公式就总结完了：

简单来说每个E（Expert）是一个网络，G是用softmax算出来的一个类似于attention的gate，每个sample会根据gate被分配给k个Expert，随后再加起来。这样的好处是大大提高了模型参数数量，但是计算量不会提高太多。

可但是，细节里面trick太多了，比如G并不是简单的Softmax算出来的，很丑陋的加了个noise，然后更丑陋的强行取了k个。noise的计算方法也很丑，主要目的是为了防止训练开始的时候收敛到永远用固定的k个Expert。这里应该有不小的研究空间，可以做的更系统更美观一点。。。

这个想法看起来比较像attention，但是我认为首先应该联系最近的Xeption（Google）和ResNext（Facebook）来看。一个很有意思的insight是：跟传统机器学习模型不同，一个DNN的计算量和它含有的参数数量并不一定要是正相关的。通过把一层拆成很多并行的层，可以固定计算量而调整参数的数量。

现有经验看来，parameter数量决定了一个DNN有多容易overfit/underfit（传统VC维分析），但是同样参数数量的情况下计算量对DNN最终建模能力的影响很大，甚至起到决定性作用。于是通过固定计算量，单独改变参数数量可以有效的解决overfitting/underfitting的问题。我认为这个方向上还大有文章可以做，想搞深度学习理论的同学也可以关注一下。

如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作？的其他答案点击这里

1

相关话题

  为什么有些学数学的看不惯甚至鄙视 Deep Learning？
  有什么深度学习数学基础书推荐？
  深度学习中，模型大了好还是小了好呢？
  如何评价论文「Stochastic Training is Not Necessary ...」?
  为什么Transformer适合做多模态任务？
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  CVPR 2019 有哪些值得关注的亮点？
  2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？
  国内做NLP业务的香侬科技值得去吗？
  AI 有可能代替人类从事数学研究吗？

前一个讨论

如何评价 NVIDIA 发布的 DGX-1？

下一个讨论

mxnet的并行计算为什么这么牛，是什么原理？

相关的话题

  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  在算力充沛，深度学习模型大行其道的今天，传统机器学习的未来在哪里？
  2021年了，如何评价微软亚研提出的对偶学习（Dual Learning）？
  机器学习如何才能避免「只是调参数」？
  除了深度学习，机器学习领域近年来还有什么热点吗？
  从应用的角度来看，深度学习怎样快速入门？
  为什么yolov5从零开始训练（不在ImageNet上预训练）能够达到如此高的性能？
  深度学习应用在哪些领域让你觉得「我去，这也能行！」？
  新智元提问：如何看待李飞飞高徒Karpathy加入特斯拉，主管人工智能部门？
  NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？
  如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ？
  人工智能可以解决人类难题吗？
  如何看待 2014 年以来计算机视觉（Computer Vision）界创业潮？
  如何看待 AlphaFold 在蛋白质结构预测领域的成功？
  如何看待MXNet在CVPR2017上公布的gluon接口？
  transformer中的Q,K,V到底是什么？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  如何评价 Self-Normalizing Neural Networks 这篇论文?
  结合深度学习的图像修复怎么实现？
  《人工智能训练师国家职业技能标准》发布，有哪些值得关注的信息？
  深度学习做股票预测靠谱吗？
  为何以范剑青老师的 Sure Independence Screening 为代表的筛选法没有流行呢？
  如何看待阿里巴巴提出的 FashionAI 比赛？
  2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？
  机器学习能否用于综合评价？具体怎么操作？
  计算机视觉是否已经进入瓶颈期？
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？
  如何看待 Nervana 被 Intel 收购？
  什么是大模型？超大模型？Foundation Model？
  人工智能 CV 岗位是不是现在供严重大于需？

© 2025-06-06 - tinynew.org. All Rights Reserved.
© 2025-06-06 - tinynew.org. 保留所有权利