首页

一般来说，三层神经网络可以逼近任何一个非线性函数，为什么还需要深度神经网络? 第1页

1

shi-guan-ya 网友的相关建议:

因为从approximation error（拟合误差）的角度，无论是实验结果来看，还是从理论分析来看，大部分情况下“深”都比“宽”更有效。

理论层面的话，分享一篇我比较喜欢的paper里的结果（Why Deep Neural Networks for Function Approximation?，ICLR 2017），作者是UIUC的Shiyu Liang和R. Srikant。

简单来说，这篇文章证明了，如果想要达到的拟合误差（approximation error），深度为常数（与无关）的神经网络需要个神经元，也就是说，shallow neural network的神经元数量随着精度（）的上升多项式增长。然而，深度为的神经网络只需要个神经元，也就是说，deep neural network的神经元数量随着精度的上升对数增长。换言之，想要达到同样的拟合误差，更深的神经网络需要的神经元数量远小于层数少的神经网络。

zr9558 网友的相关建议:

歪个楼，深度学习的教材里面一般都会提到这个定理。

Universal Approximation Theorem（1989）

Stone-Weierstrass Theorem（1885）

在一百年之前，数学家已经有一个类似的结论，其实用多项式就足够逼近闭区间上面的任意连续函数了。

一般来说，三层神经网络可以逼近任何一个非线性函数，为什么还需要深度神经网络? 的其他答案点击这里

1

相关话题

  神经网络中的能量函数是如何定义的？
  一般来说，三层神经网络可以逼近任何一个非线性函数，为什么还需要深度神经网络?
  深度学习中Attention与全连接层的区别何在？
  人工智能、模式识别领域最终是否会被一种本质、通用的算法主导？
  现在的人工智能是否走上了数学的极端？
  resnet（残差网络）的F（x）究竟长什么样子？
  CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？
  深度学习方面还有什么Open Problem?
  如果人工智能迎来下一个寒冬，你认为会是卡在什么问题上？
  有没有什么可以节省大量时间的 Deep Learning 效率神器？

前一个讨论

如何看待温柔junz最新视频《豫章书院曝光者温柔，深陷“网络暴力”泥潭》并声称自己一生没有做坏事？

下一个讨论

如何评价「神经网络本质不过是初中生都会的复合函数」？

相关的话题

  机器学习，深度神经网络等方法是否是正确的方向？
  怎么选取训练神经网络时的Batch size?
  有尝试用多层自组织特征神经网络（MLSOM）来代替层次分析法（AHP）的吗？会有哪些问题需要注意？
  为何感觉“知识蒸馏”这几年没有什么成果？
  为什么softmax很少会出现[0.5，0.5]？
  如何评价微软亚洲研究院提出的LightRNN？
  用 TensorFlow 可以做什么有意思的事情？
  深度神经网络（DNN）是否模拟了人类大脑皮层结构？
  深度学习attention机制中的Q,K,V分别是从哪来的？
  有没有什么可以节省大量时间的 Deep Learning 效率神器？
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  神经网络分类训练后得到的是连续的数怎么离散？
  神经网络能否代替决策树算法？
  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  稳定的控制器是否都存在李雅普诺夫函数？
  如何理解空洞卷积（dilated convolution）？
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」？
  请问人工神经网络中的activation function的作用具体是什么？为什么ReLu要好过于tanh和sigmoid function?
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  如何评价Sony新出的深度学习库NNabla？
  全连接层的作用是什么？
  怎么形象清晰地解释「周期 3 意味着混沌」?
  为何总感觉人工智能和神经科学（神经网络）被绑在一起？
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  神经网络中如果一个重要特征C等于特征A+特征B（算数意义上的相加），选特征的时候还有必要选特征C吗?
  为什么deep lab v3起，输出不再接 DenseCRF了？
  2019年NeurIPS有哪些糟糕的论文？
  请问人工神经网络中的activation function的作用具体是什么？为什么ReLu要好过于tanh和sigmoid function?
  深度学习的多个loss如何平衡？
  为什么谈论深度学习工具时，很少有人讨论matlab的神经网络工具包？

© 2025-06-19 - tinynew.org. All Rights Reserved.
© 2025-06-19 - tinynew.org. 保留所有权利