首页

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？第1页

1

qalian 网友的相关建议:

校招面试的时候，经常碰到使用过“BERT蒸馏”的同学。我基本都会问一下：你觉得，在这一整套操作流程里，需要额外注意和控制的点在哪里？

或者换一种问法，也就是题主的问题：当你按照标准流程做了蒸馏，但是效果不理想，现在该怎么办？

我自己对于这个问题的体会如下，欢迎讨论：

Better Teacher, Bert Student：想办法提升教师模型的效果，最简单粗暴的，比如多模型ensemble在一起；
不要放弃标注数据：只用soft-label，小模型大概率会跑偏，亲测有坑。训练教师模型的标注数据，一定一定要混在每一个batch里；
隐层逼近不适合简单模型：进行隐层（中间层）的输出逼近，只适合同类模型，比如从12层BERT到4层BERT。千万不要在BERT往CNN迁移的时候，加入奇奇怪怪的学习目标；
蒸馏数据的质和量：说实话，如果标注数据足够多足够好，根本没有必要做蒸馏。蒸馏的本质就是借助表现能力更强的教师模型，来生成大量的伪数据（即soft-label）。关于数据，第一要义是保证数量（至少10万吧），第二要义是控制来源（蒸馏数据和测试用数据需要“同分布”），第三要义是标签均衡（教师模型输出的得分，从0.01~0.99都要有，比例相差不能悬殊）；
参数控制：标准流程里的参数配置，并不一定适合你的应用场景。比如，引入Temperature因子是为了拉开教师模型输出分数的分布区间，但如果你的模型分布已经很散了，不用也未尝不可；
心理预期：实操中不要太指望，学生模型可以追平教师模型。心态佛系一点 ^___^

学生网络用知识蒸馏损失去逼近教师网络，如何提高学生网络的准确率？的其他答案点击这里

1

相关话题

  如何看待谷歌公开 tensorflow 专用处理器 TPU?
  神经网络为什么可以（理论上）拟合任何函数？
  卷积神经网络中卷积核是如何学习到特征的？
  为什么Transformer要用LayerNorm？
  如何解决图神经网络（GNN）训练中过度平滑的问题？
  如何用一句话证明自然语言处理很难？
  如何评价Deepmind自监督新作BYOL？
  OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？
  如何评价清华大学发布的自研深度学习框架-计图(Jittor)？
  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？

前一个讨论

成年人正畸是什么感受？

下一个讨论

2021 年你拍过最特别的照片是什么？有什么故事？

相关的话题

  DL框架的未来发展，TensorFlow/MXNet/PyTorch, 选哪个？
  如何评价 PyTorch 团队推出的推荐系统库 TorchRec？
  是不是并不是所有问题都适合用神经网络预测？
  如何评价Momenta ImageNet 2017夺冠架构SENet?
  简单解释一下sparse autoencoder, sparse coding和restricted boltzmann machine的关系？
  如何看待 Google 既可以作 Inference，又可以作 Training 的新一代 TPU？
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」？
  生成式对抗网络GAN有哪些最新的发展，可以实际应用到哪些场景中？
  scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?
  如何看待多模态transformer，是否会成为多模态领域的主流？
  ICLR 2018 有什么值得关注的亮点？
  要研究深度学习的可解释性（Interpretability），应从哪几个方面着手？
  上学和读书有什么区别?
  目前有哪些比较成功的人工智能应用？
  基于深度学习的人工智能程序和传统程序的差别在哪里？
  graph convolutional network有什么比较好的应用task？
  在实际工程系统中，MPC太复杂，难以做到realtime。因此都利用数据，MPC对比RL还有优势么?
  ICLR 2019 有什么值得关注的亮点？
  OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？
  2021年，ncnn发展的如何了？
  机器学习，深度神经网络等方法是否是正确的方向？
  如何评价最新的Octave Convolution？
  Yann LeCun、Geoffrey Hinton或Yoshua Bengio能得图灵奖吗？
  2019 秋招的 AI 岗位竞争激烈吗？
  如何进行图像模糊与清晰的分类？
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果？
  2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势？
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  如何看待何恺明最新一作论文Masked Autoencoders？
  在集成电路设计领域（数字，模拟），人工智能有无可能取代人类？

© 2025-06-07 - tinynew.org. All Rights Reserved.
© 2025-06-07 - tinynew.org. 保留所有权利