百科问答小站 logo
百科问答小站 font logo



实体提取任务中使用BERT-CRF时,CRF根据数据统计可以得到转移概率,为啥还要训练呢? 第1页

  

user avatar   tylin98 网友的相关建议: 
      

1、CRF并不显式定义转移概率这个概念,NER任务常用的线性链CRF只有转移特征的概念(而不是转移概率),不能简单通过统计获取。转移特征的绝对数值不能反映概率大小,但相对大小是有意义的,因此可以用加Mask的方法来引入概率上的先验,例如从S到E标签转移是不可能发生的,可以在转移矩阵上对应位置引入一个很小的负值。

2、跳出CRF的框架来看,提前统计的方法并不是很符合端到端学习的政治正确,CRF这类模块加在标注模型的顶端提供的主要是一种约束作用,参数的overhead其实并不高,没有理由通过额外的环节来获取这部分的参数。


user avatar   lbigrain 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  计算流体力学(CFD)里应用注意力机制(attention)是否可行? 
  如何系统学习机器学习? 
  计算机视觉(cv)方向今年招聘情况怎么样?是否已经人才过剩? 
  计算机视觉和自然语言处理,哪个更具有发展前景呢,还是各有千秋呢? 
  如何评价 马毅教授 的 NeurIPS 2020 中稿文章 MCR2 及 自称弄明白深度学习了? 
  有没有什么可以节省大量时间的 Deep Learning 效率神器? 
  如何评价CUHK以及Yuanjun Xiong提出的Trajectory Convolution? 
  GAN(对抗生成网络)可以被用于哪些(商业或潜在商业)实际问题? 
  如何评价微软提出的无监督视觉模型BEiT:ImageNet达到88.6,ADE20K达到57.0? 
  如何解决测试中充斥着大量训练集中没见过的样本类型模型将其识别成非我族类仍然保持测试集的高精度? 

前一个讨论
南京大学LAMDA(周志华)组的实力如何?
下一个讨论
杭州空气是不是很差?如果是,为什么那么差?





© 2025-06-07 - tinynew.org. All Rights Reserved.
© 2025-06-07 - tinynew.org. 保留所有权利