百科问答小站 logo
百科问答小站 font logo



你所在的研究领域里,有哪些工作的结果虽然不是造假,但是是精挑细选出来的? 第1页

  

user avatar   huangzhe 网友的相关建议: 
      

谢邀,提名GPT-3。

没有说GPT-3不强的意思,GPT-3在业界来说真的强,而且用法多,我只是说GPT-3并没有媒体吹的那样恐怖。但你看到的展示结果,都是cherry-picking的结果。并不是媒体吹的那样,强人工智能要来了bla bla的。关于这点,其实很多人工智能界的大佬都喷过。例如Gary Marcus直接怼了卫报。

可惜排队用GPT-3的人太多了,我在OPENAI官网上申请了很久了,依然没轮到我。不过有个人申请到了,并尝试了给GPT-3做图灵测试[1]。在常识问题方面非常强,而且能联系上下文。

例如这一段测试结果,显得还挺不错,放十年前可能就把人忽悠过去了。

问:你最喜欢的动物是什么?
答:我最喜欢的动物是狗。
问:为什么?
答:因为狗既忠诚又友好。
问:狗狗心情不好的两个原因是什么?
答:狗狗心情不好有两个原因,一是饿了,二是天热了。

但现在的人显然做太简单的测试。例如问GPT-3一些傻问题,发现它并不能识别这个问题本身有没意义。

问:长颈鹿有多少只眼睛?
答:长颈鹿有两只眼睛。
问:我的脚有多少只眼睛?
答:你的脚有两只眼睛。
问:蜘蛛有多少只眼睛?
答:蜘蛛有八只眼睛。
问:太阳有多少只眼睛?
答:太阳有一只眼睛。
问:问:一棵草的叶子有多少只眼睛?
答:草叶有一只眼睛。

显然,这时候GPT-3就被人耍了。这种结果没有媒体报道,因为搞不出大新闻。

脚有两只眼睛?脚上长鸡眼了吗?

当然,这种闲散的测试确实也无法量化GPT-3和人类的差距。我们来看看论文。在论文《Measuring Massive Multitask Language Understanding》[2]提出了一个新的测试,用来衡量文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等 57 项任务,共 15908 个问题。结果这57项任务依然比不上专家水平,尤其是STEM领域。下图截取自论文,一个四个选项的单选题,随机选择准确率为25%。可以看到,社科领域当用了X-Large后,和人类的结果很接近了。但在STEM领域可以说是跟瞎猜没区别,即使是X-Large级别,也才36.7%而人类还能做到40.2%。

当然,这个结果已经足够强大了。但GPT-3得到这个结果显然不是通过理解,而是通过暴力美学,堆叠训练集。

引用爱因斯坦的一句话

傻子都能“知道”。关键在于“理解”。—— 阿尔伯特·爱因斯坦

其实我们可以想得明白,STEM领域更讲究推理,仅仅知道是不够的。而社科领域要”记忆“的内容比较多,这也是为啥在社科领域看起来GPT-3做得不错的原因。

但无论如何,GPT-3虽然很强大,但并非媒体吹的那样强智能。GPT-3不仅不能“理解”,连”知道“也未能做得全面。再次申明,不是否定GPT-3,GPT-3的结果确实让人感到不可思议,但离强人工智能还是有很长一段距离。

参考

  1. ^Giving GPT-3 a Turing Test https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html
  2. ^Measuring Massive Multitask Language Understanding https://arxiv.org/pdf/2009.03300.pdf

user avatar   yukio-2 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  如果微积分是中国人发明的,那现在的数学符号会是什么样子? 
  行为识别常用哪种特征提取? 
  深度学习有哪些好玩的案例? 
  如何证明π^π^π^π(π的四次迭代幂次)是个有理数? 
  如何看待 Nervana 被 Intel 收购? 
  以现在的技术,当年失败的生物圈2号实验可以在月球坚持几年? 
  如何练就看到一道数学题,不管多难都有思路,并且能在短时间的思考后迅速把它解出来的能力? 
  藤壶是寄生生物吗? 
  有什么数学名词可以作为人名吗? 
  想了解异形鱼,有什么地方可以看到比较完整的异形鱼知识吗? 

前一个讨论
石墨烯技术发展到什么阶段了?距离商用有多远?
下一个讨论
什么是狄利克雷分布?狄利克雷过程又是什么?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利