1、CRF并不显式定义转移概率这个概念,NER任务常用的线性链CRF只有转移特征的概念(而不是转移概率),不能简单通过统计获取。转移特征的绝对数值不能反映概率大小,但相对大小是有意义的,因此可以用加Mask的方法来引入概率上的先验,例如从S到E标签转移是不可能发生的,可以在转移矩阵上对应位置引入一个很小的负值。
2、跳出CRF的框架来看,提前统计的方法并不是很符合端到端学习的政治正确,CRF这类模块加在标注模型的顶端提供的主要是一种约束作用,参数的overhead其实并不高,没有理由通过额外的环节来获取这部分的参数。
女王:求求题主放过我,我可不敢有什么政绩。。。