百科问答小站 logo
百科问答小站 font logo



word2vec 相比之前的 Word Embedding 方法好在什么地方? 第1页

  

user avatar   shaohuali 网友的相关建议: 
      

词嵌入模型效果好不好的关键之一,是用上下文词预测当前词的formulation,即采用的回归函数。

Hinton等07年和08年的log bilinear language model之前的工作都采用的是 softmax([上下文词向量,当前词向量]的线性变换) 的形式,softmax里边可以简化认为是一些向量的线性和。但几个向量的线性和不能很好的抓住这几个向量在隐空间一些维度上取值接近的特点,所以效果并不好。

07年的Three New Graphical Models for Statistical Language Modelling里,三个模型之一是log bilinear language model (LBL), 题目中08年的论文扩展了这个方法,得到Hierarchical Log Bilinear Language model. 为了叙述简单,下面把这两种方法统称为LBL。LBL使用了 softmax(上下文词向量的线性变换 * 当前词向量) 的形式,点乘在抓两个向量在一些维度上取值接近方面,比相加要好得多,这是词向量模型发展的一个重大突破。

word2vec使用的也是LBL。那么和之前的方法有什么区别呢?08年的Hierarchical LBL里,用的是这样的回归函数:

这里的Ci都是矩阵,不同位置对应不同的矩阵。

word2vec的CBOW用的是(skip-gram我觉得和CBOW基本是等价的,效果也类似,但CBOW的概率解释好些,所以拿它来比较):

可见它移除了变换矩阵Ci和偏移量bw. 实际上我们事后诸葛来看,变换矩阵Ci也的确是多余的,因为 两个词经常一块出现<=>两个词在某方面有相似语义<=>两个向量在某些维度取值类似,那么直接点乘就可以了,用Ci变换一下,反而有可能把本来相似的维度变得不同,从而让学出来的向量不能很好满足“相似词在有些维度上取值相近”的训练效果。

显而易见,移除Ci会极大的提高运算速度,使word2vec在大语料上训练非常可行。两个LBL模型训练语料都是1000w单词左右,而word2vec即使用wikipedia这样>20亿词规模的语料也只需几小时,大语料下得出的词向量当然会抓住更多的语法语义规律,从而更准确。

所以我觉得,word2vec的成功,印证了一句话:Less is more.


user avatar   xpqiu 网友的相关建议: 
      

谢邀。

赛前和朋友闲聊,一致的观点是:巴萨全队如果不觉得这是两场共180分钟的比赛,战略上就已经陷于被动。现在的巴萨依旧拥有无敌MSN,但三中场禁不起冲击,拉基蒂奇连续比赛之后竞技状态下滑、小白和小马哥多伤,图兰和安德烈-戈麦斯没有获得充分的信任,也没有找到自己在队中的位置,这个弱点只要被抓住,就会遭遇失败。

这场比赛再次论证了“拳怕少壮”的政治正确。巴萨中后卫乌姆迪迪的确应该背锅,但让他付全部责任,那就是不客观的评价,乌姆迪迪身前从来没有过像样(先不说有效,只说是否像样)的防守屏障,面对大巴黎从本方三十米区域到对方三十米区域的纯动态进攻方式,巴萨的防线一直处于两难当中。

如果中场压上太快,三条线的间距过大,迪马利亚和德拉克斯勒依靠绝对的有球能力突破三中场之后,能在后卫线身前觅得大片开阔地。

如果三条线保持紧凑,为了保证给予MSN更多的进攻资源支持,后防线势必要往上提,大巴黎的反击同样能在巴萨防线身后觅得大片开阔地。


埃梅里抓住了第一种可能。开场就祭出了长达65分钟的一波流:

第2分钟,前场多达6人围抢布教授,仅过了30秒,拉比奥特又在左路铲翻内马尔,3分半的时候,维拉蒂中圈附近两次铲抢,策动三人反击直扑巴萨身后的开阔地,第6分钟,迪玛利亚斜线传球,卡瓦尼左路插上,射门被挡——仅仅6分钟的试探,就赌对了巴萨的最大命门:

奔跑能力太差。

其次,才是主教练的应对。6分钟就被埃梅里看穿,被大巴黎首发11人都穿,而恩里克自己,却没发现比赛的走势一开始就变了。联赛六球大胜阿拉维斯,几乎有90%的可能意味着国王杯冠军唾手可得,三天以后面对气势汹汹的大巴黎,劈头盖脸长达60分钟的逼抢一波流,战术陌生感大到无以复加,球员的心理落差肯定会有,但是球员想不明白,难道主教练也想不明白吗?


很多人说,有了MSN组合,巴萨教练席栓条狗也能夺冠,现在呢?

并不是站在指挥区当个吉祥物,看着MSN潇潇洒洒地刷数据,就能自诩为球队领袖的。

大巴黎对防守的专注,夸张到什么程度:

比赛前65分钟,马基尼奥斯、金彭贝身前始终有维拉蒂和拉比奥特两人,前卫线和后卫线的间距非常小,4-5-1的防守阵型将禁区弧顶一带封得水泄不通;

得益于维拉蒂和拉比奥特迅速的横向、斜线移动协防,迪马利亚、马图伊迪、德拉克斯勒在前场实施高位逼抢,在中圈、在本方三十米区域主要围抢小白和布教授,逼迫皮球向边路转移;

球到了内马尔或者罗伯托脚下,更成为重点压迫对象,绝大多数时间内,罗伯托要承受来自德拉克斯勒和马图伊迪的压力,甚至卡瓦尼也会不时跑来显露一下存在感。


大巴黎逼抢的重要棋子是马图伊迪和拉比奥特,充分发挥了两个人奔跑好、拼抢能力强的优势。区别在于,马图伊迪的逼抢范围几乎覆盖了巴萨前场,高位逼抢、中圈压迫的时候,布教授或小白在哪里,他就在哪里,这样的奔跑强度非常恐怖;而本队回归阵地战态势下,他主要盯防的人只有:

梅老板。

拉比奥特则是纵向回追、对有球人员的贴身逼抢,减轻了维拉蒂的负担,也给了迪玛利亚和德拉克斯勒足够的回防时间,这五个人位置一站稳,巴萨想要变节奏就千难万难。


大巴黎火力全开的进攻,建立在不惜体能的前60分钟高强度奔跑、高强度防守之上。相比乌姆迪迪,临时被调上一线队的金彭贝身前都是队友,幸福感爆表,一战打出了前所未有的个人高水准。包厢里的蒂亚戈-席尔瓦赛前主动示弱、猛夸梅西,比赛中镜头给到他的时候,一脸严肃——

没了我球队“还能”打得这么好?这……那……我真的要去广州恒大淘宝和斯科拉里会师了?


埃梅里执教阿尔梅里亚、瓦伦西亚、塞维利亚时期内,没少和巴萨交手,就是因为执教的西甲球队多,对巴萨的认识比别人更为深刻。本场比赛一开始就脱离了巴萨的控制范围,重点之一,还是大巴黎上上下下的奔跑,将90分钟的比赛变成了毫无悬念的65分钟。这个时间段内,从局部到整体,基本没有巴萨的节奏,弱点一览无遗。


巴萨关键位置上缺了两个人。马斯切拉诺和拉基蒂奇不首发,巴萨中后场的跑动能力、防守强度、协防成功率,直接下降不止一个档次,梅西不回撤的时候,这两人还能很好地串联前场,梳理进攻方向,平衡攻防投入的资源配比,说难听点,至少让巴萨少输两个,回到主场还有翻盘的可能。

这两人的缺席,直接让布斯克茨防守薄弱、逼抢能力不足的天花板摆在摄像机镜头里,呈献给无数熬夜的球迷。如果第二个球主要是梅西中场丢球的话,那么第三个丢球,布斯克茨中路的防守缺失是最主要的责任。


梅西作为球队核心,整场比赛跑动太少,也不兴奋。只不过,球场上的现实非常残酷,他在前场没有持球空间,是因为队友拉不开纵深,和他也很难形成呼应;回到后场来持球,被三个人扑上来围抢,布教授在哪?在身后十几米以外的地方和后防线站在一起。

宇宙队不是没有机会,机会一开场就出现了。拉比奥特兴奋过头铲翻内马尔直接吃了黄牌,随后他居然平平安安地打完全场,竟然没有一名巴萨的进攻球员对他进行诱杀。15分30秒,内马尔被踩伤了以后,咬牙坚持,巴萨唯一的提速点也消失了。

大巴黎的双翼活动范围之大,第一个进球就能体现出来。德拉克斯勒从左肋直接横跑到右肋,接迪玛利亚的斜线传球,突然变向突破。乌姆迪迪对此毫无办法,布斯克茨不回收,他只能独自面对德国人的正面进攻。不犯规就突进去了,犯规就送了任意球让迪玛利亚开斋。

在紧随而至的定位球防守方面,巴萨又遭遇了大巴黎凶狠的拆墙战术。

走了伊布奉先,卡瓦尼获得了更多的进攻资源倾斜,解放的不仅仅是他的活动面积(这厮的体能真是一个怪物),还有持球选择。卡瓦尼的威胁在于,他的无球牵制比有球牵制更大,特别是压迫整条巴萨防线后退,在这条防线身前呈现出的5-7米空间内舒舒服服地站着迪玛利亚、拉比奥特、马图伊迪、德拉克斯勒当中的1-2人,还拥有丰富的进攻选项,才能凸显出一名特点欧化的乌拉圭中锋(有球在脚下的时候他甚至能错失单刀)的战术价值。

巴萨两条线之间的空当太过于明显,维拉蒂、迪玛利亚、拉比奥特先后做出尝试,直线和斜线的传球总能找到位于小白和布教授身后的接应点。就算没有第一时间形成决定性的突破,大巴黎的持球队员也能通过很高的奔跑到位率,从容组织传递,不断拉扯巴萨的防线,直到出现更好的机会。

上面两张图,是卡瓦尼回撤接维拉蒂直传球的过程。乌拉圭中分随后将球回传给马图伊迪,进行分边再组织,但巴萨的中场已经回撤,对主队的压迫威胁就会变小。多次这样的纵深穿插,足以确保大巴黎的整体推进。

因为有奔跑能力,才有了这5-7米的空间,体现出客队前卫线防守的薄弱,让主队具备向前的足够纵深。迪玛利亚也好、维拉蒂也罢,每一次直线和斜线的策动,都把战火烧向巴萨半场——推进10米,巴萨的中场就要多跑10米;跑不快,空当就会出现;空当出现,就被反击;被反击,就有丢球的风险。

就算巴萨通过边路传递获得进攻的突破口,大巴黎无论在禁区内外,都有足够的人数优势,压缩对手的进攻空间。

转入防守态势,大巴黎通常是拉比奥特担任单后腰,主要保护有球侧,缺乏更大的覆盖面。这是主队极少极少露出的空隙,巴萨也没能转化为进球。

梅西很少能在弧顶一带获得皮球,也就是说,除了穆尼耶专注于对付内马尔,马尔基尼奥、金彭贝、库扎瓦根本无需等到梅西脚热,才去领教他的威力。巴萨的进攻能把大巴黎的两条防线压扁,可是也只做到了到这一步。

在第二个进球的反击态势下,边后卫阿尔巴上前过深,小白在对方发起反击时,没有第一时间战术犯规,布斯克茨只能补到中后卫的位置上,维持正面防守人数。后卫线面前是完全没有保护的,德拉克斯勒甚至没有任何的突破,攻门得手。

下半场开场,维拉蒂发现巴萨的防守问题依旧,这时已经两球在手,他反而不着急了,更为淡定地梳理全队的进攻。加上开场10分钟,巴萨的奔跑强度没有明显改善,甚至让主队在面对高位逼抢的时候,打出了匪夷所思的绝妙反击。

对巴萨奔跑强度的测试,下面两张图可以证明。

埃梅里站在指挥区,看着弟子逼抢内马尔,一副志在必得的样子。除了后方的小白,内马尔身边的队友,几乎都有大巴黎的球员跟着。

甚至在梅西持球的时候,只有内马尔是很好的接应点。阿尔巴不见上来,巴萨三前锋、三中场彻底远离了后卫线。

此时的大巴黎还没有力竭啊。第三个球基本就是遛猴一样的传跑表演啊。

库扎瓦果断前插之前,巴萨的确是通过高位逼抢把拉比奥特往边路压,只不过这个时候,巴萨的三条线严重脱节,紧跟马图伊迪的是布教授,他身后10米之内,竟然没有一名巴萨球员,也就是说,如果安德烈-戈麦斯、布斯克茨、罗伯托三个人形成的包围圈能成功断球,在他们的旁边,没人能迅速接球转移,并向前场的小白输送直线。

布教授为了盯防马图伊迪,被带离了中路,突然插上的库扎瓦不仅获得了良好的控球视野,还为这次反逼抢提供了一个有效的、无人防守的出球点。简直棒呆!

库扎瓦持球推进了至少35米,回防的是安德烈-戈麦斯,而不是布斯克茨。迪玛利亚极为聪明地在推进当中突然停下,拉开了和巴萨后卫线的距离,得以从容控球,选择进攻内容。

小白已经做出了犯规的动作(背后非常小的伸脚动作),但迪玛利亚并没有摔倒,而是摆脱之后稍作调整,突然选择弧线球远射。此时大巴黎又是两翼展开,巴萨的防线就像一张破网。

只输两个球的话,以MSN的能力,在诺坎普扳回来实非难事。输四个球,恩里克这口锅,可就躲不掉了。长长三年时间,巴萨沉浸在MSN打遍天下无敌手的光环里,没有找到第二个马斯切拉诺,也没有找到第二个小白,今天这场失利,输得一点儿不冤。




  

相关话题

  分类机器学习中,某一标签占比太大(标签稀疏),如何学习? 
  二分类问题,应该选择sigmoid还是softmax? 
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果? 
  做底层 AI 框架和做上层 AI 应用,哪个对自己的学术水平(或综合能力)促进更大? 
  为什么都说神经网络是个黑箱? 
  如何评价Hinton组的新工作SimCLR? 
  Kaggle如何入门? 
  在数据分析、挖掘方面,有哪些好书值得推荐? 
  人工智能被高估了吗? 
  如何评价Google最新提出的gMLP:MLP模型在CV和NLP任务上均取得较好的效果? 

前一个讨论
怎么形象理解embedding这个概念?
下一个讨论
LSTM如何来避免梯度弥散和梯度爆炸?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利