百科问答小站 logo
百科问答小站 font logo



Resnet是否只是一个深度学习的trick? 第1页

  

user avatar   rewrgf 网友的相关建议: 
      

微积分是不是只是一个极限的trick?感觉学完整个微积分之后,还是没觉得微积分有理论去支持,只是一个极限的小技巧?

相对论是不是只是一个把麦克斯韦方程组和经典力学统一起来的trick?感觉学完整个相对论之后,还是没觉得洛伦兹变换有理论去支持,只是一个数学的小技巧?


user avatar   yinfupai 网友的相关建议: 
      

其实,如果把神经网络各层都想象筛子,便容易理解了。

首先明确的是,从样本提取特征的关键特征的关键,其实就是把非关键特征去除,所以每个网络层起到的作用,其实就只有一个,那就是筛选。

而训练网络的过程,核心就是在尝试训练出来一个良好的筛子,而筛子好不好,全看训练出来的筛孔好不好。

很显然,设计多重集中单一机制的筛子,要比一重拥有筛选特性很复杂的筛子,要容易得多,所以网络层次结构,整体上深比宽好。

在实际使用筛子时,很容易遇到,训练出来的筛子,最后效果不好,这有两种情况:

一种是因为很容易在前面的一些筛子中,一些较大的东西堵住筛孔,导致过程受阻,在数据上对应的情况,就是出现梯度爆炸,

还有一种情况是制作出来的筛子小于特征尺度,结果导致筛选不出有用的特征,这就是梯度消失。

对于梯度消失,比如可以考虑让训练出来的筛子的筛孔大小,形成时不那么稳定,增加点随机因素进去,也就是随机堵上一些筛孔来训练,这样就是dropout,但是dropout有点太随机,效果不太稳定,有没有更好的方法?

我们知道,多层筛子要有效果,初层的筛子的筛孔,肯定要比后面的筛子的筛孔要大,换句话说,使用最开始输入的数据,有利于产生较大的筛孔。

那么,可以引入一些层次更相对靠前的,或直接就是原始数据,与提取过的数据,混在一起,然后再训练,这样形成的筛孔,分布更有可能变得相对合理一些,这样就能缓解梯度消失,这就是skipconnection,其实这个名字英文有些混淆,它实际上指的是层间跳跃连接。

显然,直观的做法中:

如果要是遇到梯度爆炸,最好的办法就是把大块的特征砸碎,保证它们不会堵塞,这就是Regularization,如梯度剪切,其实也是干这个。

如果要是遇到梯度消失,最好的办法就是在训练时,能够通过某种形式对分布进行约束,保证总会有筛孔出现,还是Regularization。

很显然,通过Regularization,不仅可以避免全是小筛孔或全是大筛孔出现,其本质是为了让筛孔分布得相对更加合理,因此可以收获不错的效果。

大家普遍比较喜欢使用的Batch Norm,将数值归一化,方差置0,其实也是这个道理。

如果采用这样的思路,做一个全连接网络,采用skipconnection及regularization,并且处理时再进行点池化,那就成了MLP-Mixer,在特殊情况下,它可以等价于1x1的卷积的叠加。

因此,其实MLP-Mixer其实才应该是cnn的基础形态。

而采用更大的卷积核时,实际上相当于每个单元进行了一次与周边信息的融合。

那么很显然,在层中间对多个单元提取均值或最大值,也就是池化,如果再来加个归一化、缩放之类的,与Batch Norm是一致的。

所以,池化起到了调解筛孔的作用,当归一化不那么重要时,仅仅池化就够了,这取决于构造的网络组合特点。

关于池化一个显然直觉是,直接取平均值或最大值,是不是会有点糙了,所以有时候追求细节保留时,可以考虑将池化移除,然后统一使Batch Norm,效果也不错。

从直觉上很容易联想到,如果是图像处理,完全可以进行不同尺寸的、不同卷积核,进行多重采样,然后汇总在一起,训练出来的筛子,对于缩放变形,会有更好的适应能力。

最好的筛孔,当然是适合的筛孔,在训练筛子并制造筛孔时,有没有更好的方法,能够可以让形成的筛孔能够优先适应更加重要的特征?

一种好办法,就是对层层筛选的特征进行记录,标注成字典进行打分,这就是Attention,具体细的就不多说了。


user avatar   huo-hua-de-41 网友的相关建议: 
      

ResNet只是个trick,那你的工作该叫啥,反正不能高于trick吧?

不如格局打开

把ResNet称作传说级工作

那比RetNet差点的也能叫史诗级工作

拼凑组合的工作也能叫精良的工作

你的灌水小论文,也能叫优秀的工作

大家皆大欢喜,岂不妙哉?


user avatar   wu-fang-dong-4 网友的相关建议: 
      

先说答案,不是,残差有已经很深刻的数学理论做解释。

鄂维南院士在17年从动力系统角度用离散微分方程很好的解释了ResNet,直接深度学习解释性内核。

Weinan E. A Proposal on Machine Learning via Dynamical Systems[J]. Communication in Mathematics and Statistics, 2017.

很好工作,知道人好像不是很多的样子,CV的人反而更热衷于玩新奇的trick,反复炒冷饭


user avatar   caopu021 网友的相关建议: 
      

这个问题问得很好啊,我的建议是看今年年会的摘要集:

中国化学会第32届学术年会 - 论文检索系统 - 中国化学会

可以看到有很多分会,不过计算化学分布得比较散,夹杂在各个分会中。各分会的主题可以从这里找到,可能相关的包括:

有一些主题是理论计算夹杂着实验的,还需要仔细辨别。回到摘要集,以第一分会为例:

中国化学会第32届学术年会摘要集-第一分会:物理化学前沿 - 论文检索系统 - 中国化学会

可以看到题目和单位全都标出来了,而且还可以下载。

显然,能找到相关方向的摘要的单位,就是开设了相关方向的院校,甚至还能精确到具体的某个课题组。




  

相关话题

  能否使用神经网络来判断奇偶数? 
  为什么很少人用FFT加速CNN卷积层的运算? 
  如何评价Kaiming He的Momentum Contrast for Unsupervised? 
  大牛Bengio 团队最新的研究和我自己之前的研究成果重复了,应该怎么办? 
  有人说「真正的人工智能至少还要几百年才能实现」,真的是这样吗? 
  如何看待 AlphaFold 在蛋白质结构预测领域的成功? 
  计算机视觉顶级会议论文中比较适合初学计算机视觉的人做的复现实验有哪些? 
  阿里的TDM树深度模型为什么很少有人用,是有哪些问题吗? 
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果? 
  大家用resnet50在imagenet上面top1最高能到多少? 

前一个讨论
为什么有些北上广深的人越推崇甚至神化北上广深?有些不在北上广深的人越抵制甚至逃离北上广深?
下一个讨论
如何评价谷歌用30亿数据训练的20亿参数ViT-G/14模型在 ImageNet 达到新的 SOTA?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利