首页

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？第1页

1

tonyabracadabra 网友的相关建议:

说明传统的Rademacher complexity不适合于解释深度学习中over-parametrization的问题，推荐一篇有趣的文章（Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks），文中针对两层网路提出了一个新的capacity bound能随着hidden unit数量增加而降低，因此作者认为这可能可以解释为什么大网络有时候generalize得更好。

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？的其他答案点击这里

1

相关话题

  如何评价 On Unifying Deep Generative Models 这篇 paper?
  是否有可能使用人工智能在高原、戈壁和沙漠中进行工业生产？
  机器学习中macro-F1的计算公式？
  什么是人工智能？人工智能、机器学习、深度学习三者之间有什么关系吗？
  如何开发一个自己的 TensorFlow？
  2020-2021年NLP有什么核心技术的更迭吗？或者有什么推动领域发展的paper吗？
  应届硕士毕业生如何拿到知名互联网公司算法岗（机器学习、数据挖掘、深度学习） offer？
  如何评价第一局比赛 AlphaGo 战胜李世石？
  研一刚入学，从未接触过神经网络，python也是才开始学，现在导师要我做LSTM，我应该去学什么？
  caffe开发过程中使用了哪些工具？

前一个讨论

如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响？

下一个讨论

attention跟一维卷积的区别是啥？

相关的话题

  如果推出一款有「滤镜」功能的写作软件，修饰平庸的文字，会有市场吗？
  Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗?
  我们目前的时代距离人工智能具有自我意识还有多远？
  神经网络的万能逼近定理已经发展到什么地步了？
  请问下大家训练 SimCSE 时, loss 有没有这样的情况?
  如何理解压缩感知(compressive sensing)？
  为什么现在不看好 CV 方向了呢?
  如何评价剑桥，腾讯， DeepMind以及港大团队新作 SimCTG ?
  有什么算法能对一个长短不一的时间序列进行分类预测?
  Google 的神经网络生成图像 (Inceptionism) 是怎么做到的？
  神经网络中 warmup 策略为什么有效；有什么理论解释么？
  如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？
  基于大数据的个人信用体系有没有可能被滥用？
  现在机器学习工业界和学术界的差别越来越大了吗？尽早实习和踏实科研各有什么利弊？
  普通FPGA工程师怎样向人工智能靠拢？
  学习人工智能，术语看不懂怎么办？
  搞机器学习的生环化材是天坑吗？
  为何总感觉人工智能和神经科学（神经网络）被绑在一起？
  如何看待Hinton的论文《Dynamic Routing Between Capsules》？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  有哪些优秀的深度学习入门书籍？需要先学习机器学习吗？
  为什么都说神经网络是个黑箱？
  2021年，ncnn发展的如何了？
  如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ？
  加州大学伯克利分校为何能连续孵化出 Mesos,Spark,Alluxio,Ray 等重量级开源项目?
  深度学习工作站中使用AMD的CPU会有问题吗？
  机器学习里面的流形都是怎么用的？
  如何评价深度学习相关顶级期刊论文难复现的问题？
  如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲？
  如何评价Kaiming He的Momentum Contrast for Unsupervised?

© 2025-05-24 - tinynew.org. All Rights Reserved.
© 2025-05-24 - tinynew.org. 保留所有权利