百科问答小站 logo
百科问答小站 font logo



如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作? 第1页

  

user avatar   eric314 网友的相关建议: 
      

这篇paper中心思想很简洁,但是实现起来trick茫茫多。另外Google一如既往的没有公开代码,个人感觉又是一篇看起来很美但是没人能重现的典型G家paper。。。

中心思想一幅图两条公式就总结完了:

简单来说每个E(Expert)是一个网络,G是用softmax算出来的一个类似于attention的gate,每个sample会根据gate被分配给k个Expert,随后再加起来。这样的好处是大大提高了模型参数数量,但是计算量不会提高太多。

可但是,细节里面trick太多了,比如G并不是简单的Softmax算出来的,很丑陋的加了个noise,然后更丑陋的强行取了k个。noise的计算方法也很丑,主要目的是为了防止训练开始的时候收敛到永远用固定的k个Expert。这里应该有不小的研究空间,可以做的更系统更美观一点。。。

这个想法看起来比较像attention,但是我认为首先应该联系最近的Xeption(Google)和ResNext(Facebook)来看。一个很有意思的insight是:跟传统机器学习模型不同,一个DNN的计算量和它含有的参数数量并不一定要是正相关的。通过把一层拆成很多并行的层,可以固定计算量而调整参数的数量。

现有经验看来,parameter数量决定了一个DNN有多容易overfit/underfit(传统VC维分析),但是同样参数数量的情况下计算量对DNN最终建模能力的影响很大,甚至起到决定性作用。于是通过固定计算量,单独改变参数数量可以有效的解决overfitting/underfitting的问题。我认为这个方向上还大有文章可以做,想搞深度学习理论的同学也可以关注一下。




  

相关话题

  深度学习两张3080ti和一张3090ti哪个好? 
  如何看待马毅老师深度学习第一性原理的文章在 ICML 四个审稿人一致接收的情况下被 AC 拒了? 
  CTC和Encoder-Decoder有什么关系? 
  人工智能退潮期来了吗? 
  要研究深度学习的可解释性(Interpretability),应从哪几个方面着手? 
  自己学习深度学习时,有哪些途径寻找数据集? 
  现大二,准备做大学生创新创业项目计划 ,目前定的方向是深度学习+畜牧业/养殖业,有什么建议给我们吗? 
  ICLR 2022有哪些值得关注的投稿? 
  2022 年人工智能领域的发展趋势是什么?你都有哪些期待? 
  为什么在SGD中使用L1正则化很难获得稀疏性? 

前一个讨论
如何评价 NVIDIA 发布的 DGX-1?
下一个讨论
mxnet的并行计算为什么这么牛,是什么原理?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利