百科问答小站 logo
百科问答小站 font logo



Word2vec 翻译到另一种语言,其向量空间之间的映射会不会是线性的? 第1页

  

user avatar   atom-native 网友的相关建议: 
      

没有完全理解题主想要问什么,如果使用同样的mapping(脱离上下文),那源端语言的一个单词怎样得到目标端语言的不同单词。

你所说的语言之间的映射,取决于语言之间的相似程度,大部分时候都不是线性的。直观上来说,很多中文/英文词都没有对应的翻译,说明他们在各自的语义空间里的分布是不完全相似的(比如,presentation就很难找一个贴切的中文翻译)。但是用线性关系去近似不同语言之间的embedding是比较方便的,同时,虽然整个embedding space可能没有线性映射关系,但是不妨碍局部存在线性映射(e.g. anchor words)。

比如Adversarial Training for Unsupervised Bilingual Lexicon Induction 里的猫马猪(英西)

Unsupervised Alignment of Embeddings with Wasserstein Procrustes里面的水空气土地(英法)

Learning bilingual word embeddings with (almost) no bilingual data 里面的数字


数字好处在于语义明确,通用性强,缺点是样本少。用字典的好处在于样本多,缺点是可能会在通用性上有一定的妥协,同时对于很多语言可能没有办法构造足够多的平行语料对,Word Translation without Parallel Data里面的CSLS一定程度上缓解了对于语言相似性和平行语料的依赖。


当然了,语言自身也是会不断演化的,选用词向量的时候,也要考虑历史的进程(雾

如果你要用的是基于上下文的表示/内容的表示的话,某种程度上已经超出了word embedding的范畴了,不妨考虑一下BERT。


仅为抛砖引玉




  

相关话题

  如何证明对任意给定的正数e,存在M上的矩阵范数||A||,满足不等式||A||<=谱半径+e? 
  TensorFlow的自动求导具体是在哪部分代码里实现的? 
  如何看待Capsule Network在NLP领域的潜力? 
  如何看待指出 神经网络的训练罪魁祸首是退化一文? 
  机器学习如何才能避免「只是调参数」? 
  深度学习中,模型大了好还是小了好呢? 
  用生成模型做数据增强data augmentation时,如何从合成数据中筛选出质量较好的样本? 
  机器学习的理论方向 PhD 是否真的会接触那么多现代数学(黎曼几何、代数拓扑之类)? 
  请问有哪些法律和计算机领域结合的例子? 
  在CV/NLP/DL领域中,有哪些修改一行代码或者几行代码提升性能的算法? 

前一个讨论
如果李云龙成为五代火影,会怎样?
下一个讨论
如何理解分形的维度?





© 2025-02-21 - tinynew.org. All Rights Reserved.
© 2025-02-21 - tinynew.org. 保留所有权利