百科问答小站 logo
百科问答小站 font logo



如何评价 BERT 模型? 第1页

  

user avatar   BigDataDigest 网友的相关建议: 
      

深度神经网络的超强有效性一直让人疑惑。


经典论文《可视化与理解CNN》(Visualizing and Understanding Convolutional Networks)解释了在图像领域中CNN从低层到高层不断学习出图像的边缘、转角、组合、局部、整体信息的过程,一定层面论证了深度学习的有效性。另一方面,传统的NLP神经网络却并不是那么深,而bert的出现直接将NLP的神经网络加到12层以上。


那么如何理解各层学到了怎样的信息?


本文作者Jesse Vig通过可视化工具对此进行了非常有意义的探究。文章分两部分,第一部分介绍bert中的6种模式,第二部分介绍其底层细节。


可视化BERT之一


在BERT错综复杂的注意力网络中,出现了一些直观的模式。

2018年是自然语言处理领域的转折之年,一系列深度学习模型在智能问答、情感分类等多种NLP 任务上取得了最佳结果。特别是最近谷歌的BERT ,成为了一种“以一当十的模型”,在各种任务上都取得了的极佳的表现。


BERT主要建立在两个核心思想上,这两个思想都包含了NLP 最新进展:(1)Transformer 的架构(2)无监督学习预训练。


Transformer 是一种序列模型,它舍弃了 RNN 的顺序结构,转而采用了一种完全基于注意力的方法。这在经典论文 《Attention Is All You Need》中有具体介绍。


BERT 同时也要经过预训练。它的权重预先通过两个无监督任务学习到。这两个任务是:遮蔽语言模型(masked language model,MLM)和下句一句预测(next sentence prediction)。


因此,对于每个新任务,BERT 不需要从头开始训练。相反,只要在预训练的权重上进行微调(fine-tuning)就行。有关BERT的更多详细信息,可以参考文章《图解BERT》。


BERT是一只多头怪


Bert不像传统的注意力模型那样只使用一个平坦的注意力机制。相反,BERT 使用了多层次的注意力(12或24层,具体取决于模型),并在每一层中包含多个(12或16)注意力“头”。由于模型权重不在层之间共享,因此一个BERT 模型就能有效地包含多达24 x 16 = 384个不同的注意力机制。


可视化BERT


由于BERT 的复杂性,所以很难直观地了解其内部权重的含义。而且一般来说,深度学习模型也是饱受诟病的黑箱结构。所以大家开发了各种可视化工具来辅助理解。


可我却没有找到一个工具能够解释BERT 的注意力模式,来告诉我们它到底在学什么。幸运的是,Tensor2Tensor有一个很好的工具,可用于可视化Transformer 模型中的注意力模式。因此我修改了一下,直接用在BERT的一个pytorch版本上。修改后的界面如下所示。你可以直接在这个Colab notebook (colab.research.google.com)里运行,或在Github 上找到源码。(github.com/jessevig/ber)。




这个工具将注意力看做不同的连线,它们用来连接被更新的位置(左半边)与被注意的位置(右半边)。(译注:可以想象为神经网络是从右向左正向传播的。)不同的颜色分别代表相应的注意头,而线条颜色的深浅代表被注意的强度。在这个小工具的顶部,用户可以选择观察模型的第几层,以及第几个注意力头(通过单击顶部的色块即可,它们分别代表着12个头)。


BERT 到底学了什么?


我使用该工具探索了预训练 BERT 模型各个层和各个头的注意力模式(用全小写(uncased)版本的BERT-Base 模型)。虽然我尝试了不同的输入句子,但为了方便演示,这里只采用以下例句:


句子A:I went to the store.
句子B:At the store, I bought fresh strawberries.


BERT 用 WordPiece工具来进行分词,并插入特殊的分离符([CLS],用来分隔样本)和分隔符([SEP],用来分隔样本内的不同句子)。


因此实际输入序列为: [CLS] i went to the store . [SEP] at the store , i bought fresh straw ##berries . [SEP]


在探索中,我发现了一些特别显著的令人惊讶的注意力模式。下面是我确认的六种关键模式,将产生每一种模式的特定层和头都进行可视化展示。


模式1:注意下一个词


在这种模式中,每个位置主要注意序列中的下一个词(token)。下面将看到第2层0号头的一个例子。(所选头部由顶部颜色条中突出的显示色块表示。)




模式1:注意下一个词。

左:所有词的注意力。 右:所选词的注意力权重(“i”)


左边显示了所有词的注意力,而右侧图显示一个特定词(“i”)的注意力。在这个例子中,“i”几乎所有的注意力都集中在“went”上,即序列中的下一个词。

在左侧,可以看到 [SEP]符号不符合这种注意力模式,因为[SEP]的大多数注意力被引导到了[CLS]上,而不是下一个词。因此,这种模式似乎主要在每个句子内部出现。


该模式与后向RNN 有关,其状态的更新是从右向左依次进行。模式1出现在模型的多个层中,在某种意义上模拟了RNN 的循环更新。


模式2:注意前一个词


在这种模式中,大部分注意力都集中在句子的前一个词上。例如,下图中“went”的大部分注意力都指向前一个词“i”。


这个模式不像上一个那样显著。有一些注意力也分散到其他词上了,特别是[SEP]符号。与模式1一样,这与RNN 有些类似,只是这种情况下更像前向RNN。



模式2:注意前一个词。

左:所有词的注意力。 右:所选词的注意力权重(“went”)


模式3:注意相同或相关的单词


这种模式注意相同或相关的单词,包括其本身。在下面的例子中,第一次出现的“store”的大部分注意力都是针对自身和第二次出现的“store”。这种模式并不像其他一些模式那样显著,注意力会分散在许多不同的词上。




模式3:注意相同/相关的词。

左:所有词的注意力。 右:所选词的注意权重(“store”)


模式4:注意“其他”句子中相同或相关词


这种模式注意另一个句子中相同或相关的单词。例如,第二句中“store”的大部分注意力都指向第一句中的“store”。可以想象这对于下句预测任务(BERT预训练任务的一部分)特别有用,因为它有助于识别句子之间的关系。



模式4:注意其他句子中相同/相关的单词。

左:所有词的注意力。 右:所选词的注意权重(“store”)


模式5:注意能预测该词的其他单词


这种模式似乎是更注意能预测该词的词,而不包括该词本身。在下面的例子中,“straw”的大部分注意力都集中在“##berries”上(strawberries 草莓,因为WordPiece分开了),而“##berries”的大部分注意力也都集中在“straw”上。



模式5:注意能预测该单词的其他单词。

左:所有词的注意力。 右:所选词的注意力(“## berries”)


这个模式并不像其他模式那样显著。例如,词语的大部分注意力都集中在定界符([CLS])上,而这是下面讨论的模式6的特征。


模式6:注意分隔符


在这种模式中,词语的大部分注意力都集中在分隔符[CLS]或 [SEP]上。在下面的示例中,大部分注意力都集中在两个 [SEP]符号上。这可能是模型将句子级状态传播到单个词语上的一种方式。




模式6:注意分隔符。 左:所有词的注意力。 右:所选词的注意权重(“store”)


说明


其实数据可视化有点像罗夏墨迹测验(译注:这种测验叫人解释墨水点绘的图形以判断其性格):我们的解释可能会被我们的主观信念和期望所影响。虽然上面的一些模式非常显著,但其他模式却有点主观,所以这些解释只能作为初步观察。


此外,上述6种模式只是描述了BERT 的粗略注意力结构,并没有试图去描述注意力可能捕获到的语言学(linguistic)层面的模式。例如,在模式3和4中,其实可以表现为许多其他不同类型的“相关性”,例如同义关系、共同指代关系等。


而且,如果能看到注意力头是否抓取到不同类型的语义和句法关系,那将会非常有趣。


可视化BERT之二:探索注意力机制的内部细节一


在这里,一个新的可视化工具将展示BERT如何形成其独特的注意力模式。





在上文中,我讲解了BERT的注意力机制是如何呈现出多种模式的。例如,一个注意力头会主要注意序列中的下一个词;而另一个注意力头会主要注意序列中的前一个词(具体看下方图示)。在这两种情况中,BERT在本质上都是学习一种类似RNN的序列更新的模式。之后,我们也将展示BERT是如何建模词袋模型(Bag-of-Words)的。




通过BERT学习下一个单词和上一个单词的注意力模式


那么BERT是如何学到这些极好的特性呢?为了解决这个问题,我从第一部分扩展了可视化工具来更深入地探索BERT——揭示提供BERT强大建模能力的神经元。你可以在这个Colab notebook或者 Github上找到这个可视化工具。


最初的可视化工具(基于由Llion Jones出色完成的Tensor2Tensor)尝试来解释什么是注意力:也就是说,BERT到底在学习什么样的注意力结构?那么它是怎样学到的呢?为了解决这个问题,我添加了一个注意力细节视图,来可视化注意力的计算过程。详细视图通过点击⊕图标按钮来查看。你可以看到以下的一个demo示例,或直接跳到屏幕截图。




可视化工具概览


BERT有点像鲁布·戈德堡机(译注:是一种被设计得过度复杂的机械组合,以迂回曲折的方法去完成一些其实是非常简单的工作,例如倒一杯茶,或打一只蛋。),尽管每个组件都非常直观,但是系统整体很难把握。现在我将通过可视化工具介绍BERT注意力架构的各个部分。(想了解有关BERT的全部教程,推荐《图解transformer》 和《图解BERT》这两篇文章。)


下方展示了新的注意力细节视图。图中正值是蓝色的,负值是橙色的,颜色的深浅反映了取值的大小。所有的向量都是64维的,并且作用于某个特定的注意力头上。和最初的可视化工具类似,连接线颜色的深浅代表了单词之间的注意力强度。




让我们结合图分析一下:


查询向量q :查询向量q是左边正在进行注意力过程的单词/位置的编码,也就是说由它来“查询”其他的单词/位置。在上述的例子中,“the”(选中的单词)的查询向量标注出来了。


键向量k:键向量k是右边正在“被注意”的单词的编码。如下所述,键向量和查询向量决定了单词被注意程度的得分。


q×k (element-wise):查询向量和键向量的逐元素积(译注:element-wise product, 也叫哈达玛积/Hadamard product)。这个逐元素积是通过选定的查询向量和每个键向量计算得到的。这是点积(逐元素乘积的和)的前导。由于它展示了查询向量中的单个元素和键向量对点积的贡献,因此将其可视化。选定的查询向量和每个键向量的点积。得到的是非归一化的注意力得分。

Softmax:所有目标单词的q·k / 8的softmax值。这一步实现了注意力得分的归一化,保证了值为正的且和为1。常量8是向量长度(64)的开方。论文(arxiv.org/pdf/1706.0376)描述了这样做的原因。


解析BERT的注意力模式


在第一部分文章中,我在BERT的注意力头的结构中发现了一些模式。来看看我们是否能使用新的可视化工具来理解BERT是如何形成这些模式的。


注意分隔符


让我们以一个简单的例子起手,这个例子中大多数注意力是聚焦于分隔符[SEP] 的(第一部分文章中的模式6)。如第一部分文章中所描述的,这个模式可能是BERT用来将句子级的状态传播到单词级状态的一种方式。




基于BERT预训练模型的第7层3号头,聚焦分隔符注意力模式。


所以,BERT是如何直接聚焦于[SEP]符号的呢?来看看可视化工具。下面是上述例子的注意力细节视图。





在键向量列,两个出现[SEP]处的键向量有显著的特点:它们都有少量的高正值(蓝色)和低负值(橘色)的激活神经元,以及非常多的接近0的(浅蓝,浅橘或白色)的神经元。




第一个分隔符[SEP]的键向量。

查询向量q会通过那些激活神经元来匹配[SEP]键向量,会使元素內积q×k产生较高的值,如下例子所示:




第一个“the”的查询向量;第一个[SEP]的键向量;两个向量的逐元素积。

其他单词的查询向量也遵循相似的模式;它们通过同一组神经元来匹配[SEP]键向量。因此,BERT似乎指定了一小部分神经元作为“[SEP]-匹配神经元”,而查询向量也通过这些相同位置的值来匹配[SEP]键向量。这就是注意分隔符[SEP]的注意力模式。


注意句子:词袋模型(Bag of Words)


这是一个不太常见的模式,在第一部分文章中没有具体讨论。在这种模式中,注意力被平均的分配到句子中的每个单词上。




基于BERT预训练模型的第0层0号头,专注句子的注意力模式


这个模式的作用是将句子级的状态分配到单词级上。BERT在这里本质上是通过对所有词嵌入进行几乎相等权重的加权平均操作来计算一个词袋模型。词嵌入就是我们之前提到的值向量。


那么BERT是怎样处理查询向量和键向量来形成这种注意力模式的呢?让我们再来看看注意力细节视图;




基于BERT预训练模型的第0层0号头,专注句子的注意力模式细节视图。


在q×k这列,我们能看到一个清晰的模式:少量神经元(2-4个)控制着注意力得分的计算。当查询向量和键向量在同个句子中时(上例中第一个句子),这些神经元的乘积显示出较高的值(蓝色)。当查询向量和键向量在不同句子中时,在这些相同的位置上,乘积是负的(橘色),如下例子所示:




在同个句子中(左边)q*k的逐元素积很高,在不同句子中(右边)q*k的逐元素积很低。


当查询向量和键向量都来自第一个句子中时,它们在激活神经元上往往有相同的符号,因此会产生一个正积。当查询向量来自第一个句子中时,键向量来自第二个句子时,相同地方的神经元会有相反的符号,因此会产生一个负值。


但是BERT是怎么知道“句子”这个概念的?尤其是在神经网络第一层中,更高的抽象信息还没有形成的时候。这个答案就是添加到输入层(见下图)的句子级嵌入(sentence-level embeddings)。这些句子嵌入的编码信息传递到下层的变量中,即查询向量和键向量,并且使它们能够获取到特定句子的值。




句子A和B的部分嵌入以及位置嵌入被添加到词嵌入中

(来自BERT论文(arxiv.org/pdf/1810.0480))


注意下一个词


在这种注意力模式中,除了分隔符,其他所有的注意力都集中在输入序列的下个单词上。




基于BERT预训练模型的第2层0号头,注意下一个词的注意力模式。


这个模式能够使BERT捕获序列关系,如二元语法(bigrams)。我们来查看它的注意力细节视图;





我们看到查询向量“the”和键向量“store”(下个单词)的乘积在大多数神经元中是很高的正值。对于下一个单词之外的其他单词,q*k乘积包含着一些正值和负值。最终的结果是“the”和“store”之间的注意力得分很高。


对于这种注意力模式,大量的神经元参与到注意力得分中。而且这些神经元根据词位置的不同而不同,如下所示:





当i取2,4,8的时候,在位置i处的查询向量和在j = i+1处的键向量的逐元素积。注意激活神经元在每一个例子中都不同。


这种方式不同于注意分隔符以及注意句子的注意力模式,它们是由少量固定的神经元来决定注意力得分的。对于这两种模式,只有少量的神经元是必须的,因此这两种模式都很简单,并且在被注意的单词上都没多少变化。与它们相反,注意下个单词的注意力模式需要追踪512个单词(译注:在BERT中每个样本最多512个单词。)中到底是哪个是被一个给定的位置注意的,即哪个是下一个单词。为了实现这个功能,需要产生一系列查询向量和键向量,其中每个查询向量会有从512个键向量有唯一一个匹配。因此使用少量神经元很难完成这个任务。


那么BERT是如何能够生成这些查询向量和键向量呢?答案就在BERT的位置嵌入(position embeddings),它在输入层(见图1)中被添加到词嵌入(word embeddings)中。BERT在输入序列中学习512个独特的位置嵌入,这些指定位置的信息能通过模型流入到键向量和查询向量中。


大家一起来探索


欢迎大家一起来试试这个可视化工具,并分享自己的发现。


Colab: colab.research.google.com


Github:

github.com/jessevig/ber


PS:非常感谢Llion Jones开发的原始Tensor2Tensor可视化工具。


原文链接:

towardsdatascience.com/

towardsdatascience.com/


user avatar   paperplanet 网友的相关建议: 
      

一句话概括:首个深层“原生”双向语言模型屠了榜。

-----------------------------------------------------------

分隔线下面慢慢解释:

BERT是直接对标OpenAI的GPT的,并且同时也带上ELMo一起开心地鞭打。

Jacob反复怼了好几次以前的语言模型要么只有单向的(说的就是你,从左到右接受token输入的Transformer—GPT,啪):
要么非“原生”双向(ELMo同学,你这个双向是两个单向语言模型(从左到右,从右到左)拼起来的,不算“原生”,而且太浅。你不知道何凯明老师告诉我们是深度学习就下一百层吗(大误...)):

你们两个看我做示范(合成装备中.......请稍候):

Duang:

Jacob:你们看我每一层,每一个token位置都是同时接受两边所有token输入的,这个叫intuitively powerful(论文原话啊,我没有造谣啊,3.3.1第一句)

Intuitively, it is reasonable to believe that a deep bidirectional model is strictly more powerful than either a left-to-right model or the shallow concatenation of a left-to-right and right-to- left model.

那我们来脑补一下为什么intuitively。标准的从左到右语言模型训练目标是用一句话里面某一个词左侧的所有词来作为模型输入,输出接下来会是那个词。从右往左也是类似,不再详述。然后我们切换到人力智能模式,如果你给一个人左半句话,让他预测下面那个词,他会不会问你有没有词右边的半句话?所以对于这个任务来说只要中心词左边所有词就够了吗?理想情况是不是要左右两边的词来预测中心词,整个模型的预测效果会更好,模型学到的语言模型会含有更多的语义语法信息(整体熵更小)?然后在"原生"双向的基础上再把模型叠深也更加合理。

因此使用了与ELMo完全不同的语言模型训练目标:

模型有两个训练目标,一个是Token级别(不熟悉的同学可以先简单地理解为词级别),一个是句子级别。Token级别简单来说即完形填空,一个句子中间挖个词,让模型预测那个空的是哪个词。句子级别即给两句句子,判断这两句是不是原文中的连在一起的互为上下文。(句子级别的任务对于阅读理解,推理等任务提升较大。)。Jacob在论文中反复强调了这两个新的Task的作用,把这两个任务各种打开关闭与GPT做对比,参考5.1节(GPT你先别跳起来。)

最复杂的是Token级别的Task1(完形填空部分):
他的具体操作是取一长段话,随机找出15%的token,然后针对这15%再以3种不同的概率做3种处理:
80%的时间:用[MASK]标记替换单词,例如,my dog is hairy → my dog is [MASK]
10%的时间:用一个随机的单词替换该单词,例如,my dog is hairy → my dog is apple
10%的时间:保持单词不变,例如,my dog is hairy → my dog is hairy.
这么复杂的操作作者是有一些考量的,如果总是挖空的话,那token级别下游任务中,比如序列标注,他是需要使用[mask]位置词义的,这就和pre-train形成的模型习惯不一样,会带来不好的影响。模型中总共有1.5%(15%*10%)的情况是保留原始的(引导模型去在[MASK]的位置还是考虑一下原来的token输入),还有1.5%(15%*10%)的情况是用随机词替换。随机词替换会给模型增加一点点噪声,但是因为此时模型不知道哪个词是被随机换了(不像[MASK],给模型[MASK]则模型知道此处词的是被挖了,他需要预测这个位置是啥),所以就迫使他去更好地保留每个词的词义,为下游任务提供方便。

至于这些概率是intuitively还是拍脑袋ly,反正其实都差不多吗,毕竟深度学习是一门试一试有效就好了的艺术。

至于使用Transformer作为基础模型,现在也是很自然的事情了,毕竟人家早就说了Attention is all you need是吧?总不能没过两年大谷歌就打自己脸是吧?


最后,个人认为BERT除了屠榜以外还开启了一个新的方向:money is all you need(大误)。在无监督文本数据上怎样更合理地设定训练目标能够得到更好的熵更小的语言模型表示来提升下游任务。毕竟不像CV有ImageNet,NLP没有超大的万能有标注数据集,有的只有未标注的维基百科(大误)


--------------------------

更新:看了一下ELMo的代码,ELMo确实是从左往右的语言模型和从右往左的语言模型其实是独立开来训练的,共享embedding,然后把loss平均一下,然后用的时候把两个方向的语言模型输出拼在一起。所以确实Jacob的挖洞,每个单层内部都是双向的做法更加符合直觉。


user avatar   hael-c 网友的相关建议: 
      

Updated on Oct 31st:

更新Google官方发布的BERT相关代码:google-research/bert



搬运一下Reddit上Jacob的介绍(附原帖链接)。


Hi, I'm the lead author of the paper.

The basic idea is very simple. For several years, people have been getting very good results "pre-training" DNNs as a language model and then fine-tuning on some downstream NLP task (question answering, natural language inference, sentiment analysis, etc.).

Language models are typically left-to-right, e.g.:

       "the man went to a store"  P(the | <s>)*P(man|<s> the)*P(went|<s> the man)*...     

The problem is that for the downstream task you usually don't want a language model, you want a the best possible contextual representation of each word. If each word can only see context to its left, clearly a lot is missing. So one trick that people have done is to also train a right-to-left model, e.g.:

       P(store|</s>)*P(a|store </s>)*...     

Now you have two representations of each word, one left-to-right and one right-to-left, and you can concatenate them together for your downstream task.

But intuitively, it would be much better if we could train a single model that was deeply bidirectional.

It's unfortunately impossible to train a deep bidirectional model like a normal LM, because that would create cycles where words can indirectly "see themselves," and the predictions become trivial.

What we can do instead is the very simple trick that's used in de-noising auto-encoders, where we mask some percent of words from the input and have to reconstruct those words from context. We call this a "masked LM" but it is often called a Cloze task.

Task 1: Masked LM

       Input: the man [MASK1] to [MASK2] store Label: [MASK1] = went; [MASK2] = store     

In particular, we feed the input through a deep Transformer encoder and then use the final hidden states corresponding to the masked positions to predict what word was masked, exactly like we would train a language model.

The other thing that's missing from an LM is that it doesn't understand relationships between sentences, which is important for many NLP tasks. To pre-train a sentence relationship model, we use a very simple binary classification task, which is to concatenate two sentences A and B and predict whether B actually comes after A in the original text.

Task 2: Next Sentence Prediction

       Input: the man went to the store [SEP] he bought a gallon of milk Label: IsNext  Input: the man went to the store [SEP] penguins are flightless birds Label: NotNext     

Then we just train a very big model for a lot of steps on a lot of text (we used Wikipedia + a collection of free ebooks that some NLP researchers released publicly last year). To adapt to some downstream task, you just fine-tune the model on the labels from that task for a few epochs.

By doing this we got pretty huge improvements over SOTA on every NLP task that we tried, with almost task-specific no changes to our model needed.

But for us the really amazing and unexpected result is that when we go from a big model (12 Transformer blocks, 768-hidden, 110M parameters) to a really big model (24 Transformer blocks, 1024-hidden, 340M parameters), we get huge improvements even on very small datasets (small == less than 5,000 labeled examples).

We also really 100% will release the pre-trained model and code for push-button replication of the main results within the next 2-3 weeks. (Replicating the fine-tunings takes at most a few hours on a single GPU).



以下为个人翻译,一些专有词会在第一次出现时附上对应英文。如有不当之处还请指出,谢谢~


大家好,我是该论文的第一作者。

基本思路非常简单。几年来,人们已通过"预训练"『pre-training』深度神经网络『DNN』作为语言模型(language model),随后在一些后续『downstream』的自然语言处理任务(问答系统『question answering』,自然语言推理『natural language inference』,情感分析『sentiment analysis』等等)上进行微调『fine-tuning』的方式获得了很不错的结果。

一般而言语言模型是自左向右,比如:

       "the man went to a store"  P(the | <s>)*P(man|<s> the)*P(went|<s> the man)*...     

问题是对于后续任务,一般你不需要一个语言模型,而是需要每一个词的最可能语境表示『contextual representation』。如果每个词只能感知其左侧语境,显然很多信息就丢失了。所以人们想出的一个技巧是再训练一个自右向左的模型, 比如:

       P(store|</s>)*P(a|store </s>)*...     

现在对于每个词便有了两种表示形式:一种自左向右,一种自右向左。你可以连接在一起处理你的后续任务。

但是,如果我们可以训练一个单独的深度双向『deeply birectional』的模型,显然结果会更好。

不巧的是,我们无法像传统的语言模型一样训练一个深度双向模型,因为其会产生环路『cycle』,词会间接“感知自身”,而预测变得微不足道『trivial』。(不好意思这里我不是太理解……)

不过,我们可以利用去噪自动编码器『de-noising auto-encoder』中使用的简单技巧:我们可以遮盖『mask』输入中的部分词汇,并从语境中重构那些词汇。我们称之为“遮盖语言模型”『masked LM』,不过它更多地被称为完形任务『Cloze task』。

Task 1: Masked LM

       Input: the man [MASK1] to [MASK2] store Label: [MASK1] = went; [MASK2] = store     (这里个人觉得MASK2应为2)     

尤其是,我们通过一个深层转换『Transformer』编码器进行输入,随后使用对应于遮盖处的最终隐态『final hidden states』对遮盖词进行预测,正如我们训练一个语言模型一样。

另外,语言模型还不理解句间关系,而这恰恰对于许多自然语言处理任务而言十分重要。为了预训练一个句子关系模型,我们使用了非常简单的二元分类『binary classification』任务:连接两个句子A和B后,预测在原文中B是否真的出现在A之后。

Task 2: Next Sentence Prediction

       Input: the man went to the store [SEP] he bought a gallon of milk Label: IsNext  Input: the man went to the store [SEP] penguins are flightless birds Label: NotNext     

随后我们便训练一个非常巨大的模型,大量的步骤及大量的文本(我们使用了维基百科以及一系列的自然语言处理研究者去年公开发表的免费电子书)。为了适应一些后续任务,你只需根据任务对模型的标签进行几代微调。

我们在每一个尝试的自然语言处理任务上,都比原先的最佳结果『SOTA, state-of-the-art』取得了巨大的提升,并且我们的模型几乎不需要针对特定任务『task-specified』加以修改。

不过难以置信的结果是,当我们从一个较大的模型(12个Transformer块,768隐藏层,110M参数)转向一个超巨大的模型(24个Transformer块,1024隐藏层,340M参数),即使在很小的数据集(小,即意味着少于5000个标记样本)上我们也有巨大的提升。

同时我们将会在两到三周内发布预训练模型,以及复现主要结果的自动化代码『code for push-button replication of the main results』。(在单GPU上复现微调最多只需几个小时)。


user avatar   hongyizhang 网友的相关建议: 
      

问题不准确。除了模型的改进,更重要的是用了超大的数据集(BooksCorpus 800M + English Wikipedia 2.5G单词)和超大的模型在相关的任务上做预训练,实现了在目标任务上的表现的单调增长(Figure 4.)

类似的现象在计算机视觉任务中也有体现:arxiv.org/abs/1805.0093

用超大的模型在Instagram图像上做预训练预测hashtag,在ImageNet上fine-tune,达到了目前最好的图像分类效果,且目标任务的表现随预训练数据量单调增长(Fig. 2)。

除此之外,没有什么好评价的了。毕竟一个实验需要在16个TPU上跑4天,而我只有两个GTX 1070。


user avatar   gong-yichen 网友的相关建议: 
      

如果说这是里程碑式的工作的话,那我在Google实习期间真的是见证了历史。


每周和Jacob一起开会,他复现openAI的带预训练语言模型的GPT只花费了一周,同时发现效果不如预期。拿到大数据,重新训练定位出问题只花了两天。再下次开会他的新想法已经超过openAI模型了。再下周开会就有了现在Single Model在几个任务上的成绩。


请你认真地感受一下这个速度。OpenAI做他们的工作的时候预训练他们的语言模型花了一个月,而Jacob用TPU只花了一天。OpenAI训练语言模型基本是按照原来Transformer的配置,调整了一些参数,而Jacob可以随心所欲地尝试自己新的想法。这是超强算力和超强工程能力碰撞而迸发的能量!未来真的是算力的时代。


@林洲汉 作为共同见证者,你也来膜一下?


user avatar   fandywang 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。


user avatar   xpqiu 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。


user avatar   tsxiyao 网友的相关建议: 
      

先下结论:电影想把Freddie塑造成一个有人性的神,却忘了真正的Freddie只是一个有神性的人

如果作为一部粉丝向的情怀片,《波》已经达到了满分,哪怕不谈对细节出色的把控,光是最后二十分钟的神级还原已经足够让所有的情怀在we are the champions中泪流满面

感受一下当时的直播:

Live Aid https://www.zhihu.com/video/1092941240030597120


Live Aid https://www.zhihu.com/video/1092941515751579648

但是作为一部传记片,《波》还是太流程化了,才华横溢的主角惊艳出场,遇到小人,遭遇挫折,众叛亲离,踢开小人,亲友重聚,完美收场。作为人物小传也算及格,但是对于Freddie这样的传奇人物的剖析还是不够大胆,想要表现其人性的一面,又不敢去探索Freddie其实也有自私功利的角落,想要表现其亦男亦女的魅力,却又只是浮于外表没有触碰到灵魂,以至于片子自始至终有种畏手畏脚的憋屈感。

不过不管受众是谁,《波西米亚狂想曲》至少是一部及格线以上的作品,再加上Queen的音乐加成,哪怕不至于血脉喷张,但让观众在电影院点点头抖抖腿还是绰绰有余了

看完电影之后,再看到波西米亚狂想曲的歌词,或许会有一些不一样的体会

Is this the real life

Is this just fantasy

Caught in a landslide. No escape from reality

Open your eyes.Look up to the skies and see

I'm just a poor boy, I need no sympathy

Because I'm easy come, easy go,A little high, little low,

Anyway the wind blows, doesn't really matter to me

freddie的生命像一场华丽的错觉,但他所留下来的,is not fantasy




  

相关话题

  未来 50 年,哪些职业是一定不会被 AI(人工智能)取代的? 
  请问下大家训练 SimCSE 时, loss 有没有这样的情况? 
  靠 AI 来实行计划经济可行吗? 
  如何看待在某度搜不到megengine官网? 
  如何看待马毅老师深度学习第一性原理的文章在 ICML 四个审稿人一致接收的情况下被 AC 拒了? 
  你遇见过什么当时很有潜力但是最终没有流行的深度学习算法? 
  主动学习(Active Learning)近几年的研究有哪些进展,现在有哪些代表性成果? 
  如何评价陈天奇团队新开源的TVM? 
  「刷脸支付」靠谱吗,现在发展得怎么样了? 
  有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程? 

前一个讨论
你写论文时发现了哪些非常神的网站?
下一个讨论
那些跳楼的名校博士们,为什么不退学?





© 2024-11-08 - tinynew.org. All Rights Reserved.
© 2024-11-08 - tinynew.org. 保留所有权利