百科问答小站 logo
百科问答小站 font logo



Bert中的词向量各向异性具体什么意思啊? 第1页

  

user avatar   aaron-73-65 网友的相关建议: 
      

各向异性(Anisotropic) 的概念在BERT-flow的文章中有明确的定义:

“Anisotropic” means word embeddings occupy a narrow cone in the vector space.

翻译过来就是:“各向异性”表示词嵌入在向量空间中占据了一个狭窄的圆锥形体。但这个定义有点过于场景化,实际上各向异性的表现形式并不一定是锥形。

各向异性最早是一个物理概念,是指物体的全部或部分物理、化学等性质随方向的不同而有所变化的特性。作为吃货的我们肯定非常有经验,吃肉的时候顺纹切的肉比横纹切的肉更有嚼劲。类似的还有木头的顺纹和横纹的抗压和抗拉能力也不同,石墨单晶的电导率在不同方向差异很大。

各向异性在向量空间上的含义就是分布与方向有关系,而各向同性就是各个方向都一样,比如二维的空间,各向异性和各向同性对比如下(左图为各向异性,右图为各向同性):



学者们(Gao et al. 2019Wang et al. (2020))发现Transformer学到的词向量在空间的分布是这个样子的:



Ethayarajh, 2019 发现类似的情况在BERT,GPT-2中同样存在。看上面的图就知道模型学到的向量分布是各向异性的。

各向异性的缺点


各向异性就有个问题,那就是最后学到的向量都挤在一起,彼此之间计算余弦相似度都很高,并不是一个很好的表示。一个好的向量表示应该同时满足Alignment 和 uniformity,前者表示相似的向量距离应该相近,后者就表示向量在空间上应该尽量均匀,最好是各向同性的。



左图是理想的表示,右图则有各向异性的缺点。

如何消除各向异性?

解决各向异性的方法有很多,比如

1. 映射为各向同性

BERT-flow的工作就是将原来的分布校准为高斯分布。标准的高斯分布就是各向同性的。



类似的还有whitening操作。大概流程就是根据SVD分解的结果,旋转缩放后得到一个标准正态分布。



2. 消除主成分

参见论文:

A Simple but Tough-to-Beat Baseline for Sentence Embeddings

All-but-the-Top: Simple and Effective Postprocessing for Word Representations

3. 正则化

参见论文:

Representation Degeneration Problem in Training Natural Language Generation Models

有图有真相,一图胜千言。看图学知识,让你理解得更加透彻。点击下方关注,学习更多计算机知识。

码字不易,觉得有帮助辛苦点个赞




  

相关话题

  请问能给出一个例子,使一个向量空间的子集只满足包含0且对加法封闭但不对标量乘法封闭吗? 
  为什么 Bert 的三个 Embedding 可以进行相加? 
  如何评价最近火热的对比学习,会引领预训练模型新的范式嘛? 
  应届硕士毕业生如何拿到知名互联网公司算法岗(机器学习、数据挖掘、深度学习) offer? 
  如何看待2021年秋招算法岗灰飞烟灭? 
  word2vec 相比之前的 Word Embedding 方法好在什么地方? 
  有哪些人工智能上的事实,没有一定人工智能知识的人不会相信? 
  为什么Transformer适合做多模态任务? 
  如何评价微软机器翻译在 WMT2017 中英翻译达到「人类水平」? 
  如果 n 个向量线性无关,则其中 n-1 个向量线性相关吗? 

前一个讨论
如何看待 12 代英特尔酷睿 H45 新品,给游戏玩家或创作者带来怎样的新体验?
下一个讨论
如何评价陈丹琦团队新作 Should You Mask 15% in MLM?





© 2024-09-20 - tinynew.org. All Rights Reserved.
© 2024-09-20 - tinynew.org. 保留所有权利