百科问答小站 logo
百科问答小站 font logo



NLP文本分类的本质是不是其实是找相似,对于要分类的句子,在训练集里找最相似的句子? 第1页

  

user avatar   cai-yun-long-65 网友的相关建议: 
      

看你这个相似是那方面的相似,得深入剖析这个相似

文本分类是一个有偏向性的任务。

如果这个相似表示的是“整句话的语义特征”,那这不一定代表它目前分类任务中的特征。语义的相似性只是代表了这些话可能表述的意思相近。

举个例子:

第一组:“小猪佩奇电影真地很有趣啊”、“上海迪士尼乐园真地很有趣”

第二组:“小猪佩奇电影真地很有趣啊”、“小猪佩奇电影好弱智啊”

使用sentence-BERT对上面两组数据做相似性,第一组的相似性要高于第二组的相似性。但是这并不能代表在实际分类任务表现也是这样的。

做具体分类任务。第一组:第一个表达“影视”,第二个就是“旅游地点”,是不相似的;第二组:两个都表达的是“影视”,是相似的。

如果做情感识别,第一组:都表达正向情绪,是相似的;第二组,第一个表达正向情绪,第二个表达负面情绪,是不相似的。

所以这个问题要具体问题具体分析,不能一棒打死。


user avatar   chen-bo-89-7 网友的相关建议: 
      

其实就是 类别体系有很多维度。以机器学习为例 是通过样本偏差来反馈这种维度。相似是需要在某些维度上相似。

有空再补 淘特加班中


user avatar   huo-hua-de-41 网友的相关建议: 
      

我觉得这个问题很好,我来谈一谈自己的一些想法,抛砖引玉。

  1. 找最相似的句子

这个想法超朴素的。是不是找训练集里最相似的句子,然后把最相似的句子的label给要预测的句子不就好了吗?

在图里面,这叫做single link。但这个问题也是很明显的。如果这样本的标签有错误怎么办?那你预测是不是错了?如果你相似度的衡量有问题怎么办?那是不是预测也错啦?

机器学习时代有无数的科学家,验证过这种一言堂式的分类方法,效果并不好。

2. 找topk个最相似的句子

一言堂不好,那咱们就来民主投票嘛。找topk最相似的句子。根据每个句子所具有的标签进行投票,获得票数最多的那个标签就是预测句子的标签。这就是knn classifier,Sklearn那里面都有实现。

但一般实践下来,效果也不是最好的。只考虑topk个最相似的句子,那其他样本的意见就不考虑了吗?

3. 找到所有样本的中心

既然要考虑所有样本的意见。最简单的办法就是把所有样本的表示都拿出来,然后求一个他们的中心喽。然后预测的句子和所有类的中心计算距离,距离最近的那个中心就是句子的标签。

这其实就是现在一般深度学习分类模型的框架。底层模型学习句子的表示。最后一层hidden layer就是每个类的中心。

分类学习的过程,一方面是调节底层表示,进而调整与中心的距离。一方面是不断调整中心的位置,使得训练集的所有样本与中心的距离都接近。

抛砖引玉就到此为止,欢迎大家分享一些最新的进展。




  

相关话题

  机器学习里的 kernel 是指什么? 
  国内较强的NLP高校实验室有哪些? 
  机器学习的理论方向 PhD 是否真的会接触那么多现代数学(黎曼几何、代数拓扑之类)? 
  如何通俗易懂地介绍 Gaussian Process? 
  如何评价英伟达于 GTC 2021 大会发布的基于 ARM 架构的 Grace CPU? 
  为何感觉“知识蒸馏”这几年没有什么成果? 
  深度学习领域有哪些瓶颈? 
  如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet? 
  ICLR 2022有哪些值得关注的投稿? 
  算法研究属于数学专业还是计算机专业? 

前一个讨论
如何评价哈工大校长周玉被解除职务,新校长任命为韩杰才?
下一个讨论
如何看待三孩配套政策发布:取消社会抚养费?还有哪些信息值得关注?





© 2024-09-19 - tinynew.org. All Rights Reserved.
© 2024-09-19 - tinynew.org. 保留所有权利