首页

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？第1页

1

qalian 网友的相关建议:

校招面试的时候，经常碰到使用过“BERT蒸馏”的同学。我基本都会问一下：你觉得，在这一整套操作流程里，需要额外注意和控制的点在哪里？

或者换一种问法，也就是题主的问题：当你按照标准流程做了蒸馏，但是效果不理想，现在该怎么办？

我自己对于这个问题的体会如下，欢迎讨论：

Better Teacher, Bert Student：想办法提升教师模型的效果，最简单粗暴的，比如多模型ensemble在一起；
不要放弃标注数据：只用soft-label，小模型大概率会跑偏，亲测有坑。训练教师模型的标注数据，一定一定要混在每一个batch里；
隐层逼近不适合简单模型：进行隐层（中间层）的输出逼近，只适合同类模型，比如从12层BERT到4层BERT。千万不要在BERT往CNN迁移的时候，加入奇奇怪怪的学习目标；
蒸馏数据的质和量：说实话，如果标注数据足够多足够好，根本没有必要做蒸馏。蒸馏的本质就是借助表现能力更强的教师模型，来生成大量的伪数据（即soft-label）。关于数据，第一要义是保证数量（至少10万吧），第二要义是控制来源（蒸馏数据和测试用数据需要“同分布”），第三要义是标签均衡（教师模型输出的得分，从0.01~0.99都要有，比例相差不能悬殊）；
参数控制：标准流程里的参数配置，并不一定适合你的应用场景。比如，引入Temperature因子是为了拉开教师模型输出分数的分布区间，但如果你的模型分布已经很散了，不用也未尝不可；
心理预期：实操中不要太指望，学生模型可以追平教师模型。心态佛系一点 ^___^

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？的其他答案点击这里

1

相关话题

  如何评价 Exploring Simple Siamese Learning?
  目前有哪些比较成功的人工智能应用？
  结合深度学习的图像修复怎么实现？
  DL框架的未来发展，TensorFlow/MXNet/PyTorch, 选哪个？
  LSTM如何来避免梯度弥散和梯度爆炸？
  为何感觉“知识蒸馏”这几年没有什么成果？
  为什么机器学习解决网络安全问题总是失败?
  为什么做GPU计算，深度学习用amd显卡的很少，基本都nvidia？
  如何直观地解释 backpropagation 算法？
  在做算法工程师的道路上，你掌握了什么概念或技术使你感觉自我提升突飞猛进？

前一个讨论

成年人正畸是什么感受？

下一个讨论

2021 年你拍过最特别的照片是什么？有什么故事？

相关的话题

  如何看待周志华等人的新书《机器学习理论导引》？
  怎么选取训练神经网络时的Batch size?
  如何评价1700亿参数的GPT-3？
  训练过程中loss震荡特别严重，可能是什么问题？
  目前，人工智能语音在说中文时的语气感觉上还比较机械，怎样使人工智能语音的语气更自然一些？
  在机器学习模型的训练期间，大概几十分钟到几小时不等，大家都会在等实验的时候做什么？
  如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？
  神经网络中，bias有什么用，为什么要设置bias，当加权和大于某值时，激活才有意义？
  机器学习里面的流形都是怎么用的？
  如何评价谷歌大脑的EfficientNet？
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲？
  为什么在SGD中使用L1正则化很难获得稀疏性？
  如何评价Hinton组的新工作SimCLR?
  如何看待何恺明最新一作论文Masked Autoencoders？
  多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢？
  为什么 Bert 的三个 Embedding 可以进行相加？
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  人工智能退潮期来了吗？
  学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？
  如何看待Capsule Network在NLP领域的潜力？
  人工智能 CV 岗位是不是现在供严重大于需？
  深度学习对图像的处理，为什么大多基于RGB，而没有其他色彩空间，比如HSV？
  什么是蒙特卡罗 Dropout(Monte-Carlo Dropout)？
  深度学习底层开发对数学有哪些要求？
  GAN的生成器是怎么产生图片的？
  2019年NeurIPS有哪些糟糕的论文？
  有没有必要把机器学习算法自己实现一遍？
  大家推荐一下，哪些学校的导师有在做量化交易、股票预测的？
  如何评价Hinton组的新工作SimCLR?

© 2025-06-07 - tinynew.org. All Rights Reserved.
© 2025-06-07 - tinynew.org. 保留所有权利