谢邀,提名GPT-3。
没有说GPT-3不强的意思,GPT-3在业界来说真的强,而且用法多,我只是说GPT-3并没有媒体吹的那样恐怖。但你看到的展示结果,都是cherry-picking的结果。并不是媒体吹的那样,强人工智能要来了bla bla的。关于这点,其实很多人工智能界的大佬都喷过。例如Gary Marcus直接怼了卫报。
可惜排队用GPT-3的人太多了,我在OPENAI官网上申请了很久了,依然没轮到我。不过有个人申请到了,并尝试了给GPT-3做图灵测试[1]。在常识问题方面非常强,而且能联系上下文。
例如这一段测试结果,显得还挺不错,放十年前可能就把人忽悠过去了。
问:你最喜欢的动物是什么?
答:我最喜欢的动物是狗。
问:为什么?
答:因为狗既忠诚又友好。
问:狗狗心情不好的两个原因是什么?
答:狗狗心情不好有两个原因,一是饿了,二是天热了。
但现在的人显然做太简单的测试。例如问GPT-3一些傻问题,发现它并不能识别这个问题本身有没意义。
问:长颈鹿有多少只眼睛?
答:长颈鹿有两只眼睛。
问:我的脚有多少只眼睛?
答:你的脚有两只眼睛。
问:蜘蛛有多少只眼睛?
答:蜘蛛有八只眼睛。
问:太阳有多少只眼睛?
答:太阳有一只眼睛。
问:问:一棵草的叶子有多少只眼睛?
答:草叶有一只眼睛。
显然,这时候GPT-3就被人耍了。这种结果没有媒体报道,因为搞不出大新闻。
脚有两只眼睛?脚上长鸡眼了吗?
当然,这种闲散的测试确实也无法量化GPT-3和人类的差距。我们来看看论文。在论文《Measuring Massive Multitask Language Understanding》[2]里提出了一个新的测试,用来衡量文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等 57 项任务,共 15908 个问题。结果这57项任务都依然比不上专家水平,尤其是STEM领域。下图截取自论文,一个四个选项的单选题,随机选择准确率为25%。可以看到,社科领域当用了X-Large后,和人类的结果很接近了。但在STEM领域可以说是跟瞎猜没区别,即使是X-Large级别,也才36.7%而人类还能做到40.2%。
当然,这个结果已经足够强大了。但GPT-3得到这个结果显然不是通过理解,而是通过暴力美学,堆叠训练集。
引用爱因斯坦的一句话
傻子都能“知道”。关键在于“理解”。—— 阿尔伯特·爱因斯坦
其实我们可以想得明白,STEM领域更讲究推理,仅仅知道是不够的。而社科领域要”记忆“的内容比较多,这也是为啥在社科领域看起来GPT-3做得不错的原因。
但无论如何,GPT-3虽然很强大,但并非媒体吹的那样强智能。GPT-3不仅不能“理解”,连”知道“也未能做得全面。再次申明,不是否定GPT-3,GPT-3的结果确实让人感到不可思议,但离强人工智能还是有很长一段距离。
女王:求求题主放过我,我可不敢有什么政绩。。。