百科问答小站 logo
百科问答小站 font logo



Bert中的词向量各向异性具体什么意思啊? 第1页

  

user avatar   aaron-73-65 网友的相关建议: 
      

各向异性(Anisotropic) 的概念在BERT-flow的文章中有明确的定义:

“Anisotropic” means word embeddings occupy a narrow cone in the vector space.

翻译过来就是:“各向异性”表示词嵌入在向量空间中占据了一个狭窄的圆锥形体。但这个定义有点过于场景化,实际上各向异性的表现形式并不一定是锥形。

各向异性最早是一个物理概念,是指物体的全部或部分物理、化学等性质随方向的不同而有所变化的特性。作为吃货的我们肯定非常有经验,吃肉的时候顺纹切的肉比横纹切的肉更有嚼劲。类似的还有木头的顺纹和横纹的抗压和抗拉能力也不同,石墨单晶的电导率在不同方向差异很大。

各向异性在向量空间上的含义就是分布与方向有关系,而各向同性就是各个方向都一样,比如二维的空间,各向异性和各向同性对比如下(左图为各向异性,右图为各向同性):



学者们(Gao et al. 2019Wang et al. (2020))发现Transformer学到的词向量在空间的分布是这个样子的:



Ethayarajh, 2019 发现类似的情况在BERT,GPT-2中同样存在。看上面的图就知道模型学到的向量分布是各向异性的。

各向异性的缺点


各向异性就有个问题,那就是最后学到的向量都挤在一起,彼此之间计算余弦相似度都很高,并不是一个很好的表示。一个好的向量表示应该同时满足Alignment 和 uniformity,前者表示相似的向量距离应该相近,后者就表示向量在空间上应该尽量均匀,最好是各向同性的。



左图是理想的表示,右图则有各向异性的缺点。

如何消除各向异性?

解决各向异性的方法有很多,比如

1. 映射为各向同性

BERT-flow的工作就是将原来的分布校准为高斯分布。标准的高斯分布就是各向同性的。



类似的还有whitening操作。大概流程就是根据SVD分解的结果,旋转缩放后得到一个标准正态分布。



2. 消除主成分

参见论文:

A Simple but Tough-to-Beat Baseline for Sentence Embeddings

All-but-the-Top: Simple and Effective Postprocessing for Word Representations

3. 正则化

参见论文:

Representation Degeneration Problem in Training Natural Language Generation Models

有图有真相,一图胜千言。看图学知识,让你理解得更加透彻。点击下方关注,学习更多计算机知识。

码字不易,觉得有帮助辛苦点个赞




  

相关话题

  AI领域的灌水之风如何破局? 
  怎么巧记施密特正交公式?如图。? 
  在中文 NLP 等论文中,应该如何翻译 token 这个词? 
  高中数学教材中,规定0向量与任意向量平行。为什么要做这样的规定?有什么意义和必要性? 
  为何向量没有除法运算? 
  如何看待2021年哔哩哔哩拜年纪采用机器生成的假弹幕? 
  为什么不能有把中文想法直接转换成电脑程序的编程呢? 
  硕士方向,选择迁移学习还是自然语言处理? 
  深度学习中,模型大了好还是小了好呢? 
  AI 都学会看论文了,科研工作者会被淘汰么? 

前一个讨论
如何看待 12 代英特尔酷睿 H45 新品,给游戏玩家或创作者带来怎样的新体验?
下一个讨论
如何评价陈丹琦团队新作 Should You Mask 15% in MLM?





© 2025-02-22 - tinynew.org. All Rights Reserved.
© 2025-02-22 - tinynew.org. 保留所有权利