你所在的研究领域里，有哪些工作的结果虽然不是造假，但是是精挑细选出来的? 第1页

huangzhe 网友的相关建议:

谢邀，提名GPT-3。

没有说GPT-3不强的意思，GPT-3在业界来说真的强，而且用法多，我只是说GPT-3并没有媒体吹的那样恐怖。但你看到的展示结果，都是cherry-picking的结果。并不是媒体吹的那样，强人工智能要来了bla bla的。关于这点，其实很多人工智能界的大佬都喷过。例如Gary Marcus直接怼了卫报。

可惜排队用GPT-3的人太多了，我在OPENAI官网上申请了很久了，依然没轮到我。不过有个人申请到了，并尝试了给GPT-3做图灵测试^[1]。在常识问题方面非常强，而且能联系上下文。

例如这一段测试结果，显得还挺不错，放十年前可能就把人忽悠过去了。

问：你最喜欢的动物是什么?
答：我最喜欢的动物是狗。
问：为什么?
答：因为狗既忠诚又友好。
问:狗狗心情不好的两个原因是什么?
答:狗狗心情不好有两个原因，一是饿了，二是天热了。

但现在的人显然做太简单的测试。例如问GPT-3一些傻问题，发现它并不能识别这个问题本身有没意义。

问：长颈鹿有多少只眼睛?
答：长颈鹿有两只眼睛。
问：我的脚有多少只眼睛?
答：你的脚有两只眼睛。
问：蜘蛛有多少只眼睛?
答：蜘蛛有八只眼睛。
问：太阳有多少只眼睛?
答：太阳有一只眼睛。
问：问:一棵草的叶子有多少只眼睛?
答：草叶有一只眼睛。

显然，这时候GPT-3就被人耍了。这种结果没有媒体报道，因为搞不出大新闻。

脚有两只眼睛？脚上长鸡眼了吗？

当然，这种闲散的测试确实也无法量化GPT-3和人类的差距。我们来看看论文。在论文《Measuring Massive Multitask Language Understanding》^[2]里提出了一个新的测试，用来衡量文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等 57 项任务，共 15908 个问题。结果这57项任务都依然比不上专家水平，尤其是STEM领域。下图截取自论文，一个四个选项的单选题，随机选择准确率为25%。可以看到，社科领域当用了X-Large后，和人类的结果很接近了。但在STEM领域可以说是跟瞎猜没区别，即使是X-Large级别，也才36.7%而人类还能做到40.2%。

当然，这个结果已经足够强大了。但GPT-3得到这个结果显然不是通过理解，而是通过暴力美学，堆叠训练集。

引用爱因斯坦的一句话