世界AI的一极。
以前比较崇拜,现在其实不这么认为了。尤其是gopher出来的sample我发现质量还不如我自己搞的LM高的时候。(但webgpt似乎还是很有意思的……)
但deepmind和openai有一个特点就是特别擅长搞几十个水平不错的研究人员,计算资源管够,每人每年发一百万美元,分工合作做大项目,搞出来震惊世界。当然失败的其实更多,比较有名的失败项目比如openai的dota2 AI还有deepmind的星际AI,没啥名气的失败项目更多,但成功项目的收益足以cover不成功项目的损失就行。
deepmind和openai的亮点工作,作者列表里面都是几乎没有中国人的名字,和ai这个大领域里中国人、海外华人的占比完全不符。这说明的其实是deepmind和openai在有意识地排斥中国人和海外华人。
中国的研究者我觉得类似质量的科研人员凑那么几十几百个并不是问题,中国的钱也并不少。但却没法组织成一个类似deepmind,openai的机构……每次看到的创新都是工资只有deepmind百分之一的研究生、实习生在不到百分之一的计算资源下trick式的微创新,要么就是实习生拿着多一点的计算资源复现deepmind,openai已经搞出来的成功模型。没有舍得高薪请懂技术的人来group起来干技术(而不是当管理)的魄力,也没有为未知的项目投几十亿就为听个响的魄力。
DeepMind是神一般的公司,举个栗子,其出品的AlphaFold技术可媲美人类基因组计划,当今各种基因疗法都得益于当年宏大的基因组计划,AlphaFold展现的人工智能也将极大推动未来的药物研发。摘一段大神邢波教授的评价:
在过去的三五年里面,让我印象比较深的工作之一是最近 DeepMind 用深度学习的方法对蛋白质结构做预测的工作。我觉得它里边有若干个思想上的创新,不是技术上创新。
通常我们在做这种结构的预测,或者是在做各种预测的时候,都是用 connecting dots forward 的思路,就是往前推演,线性逻辑。比如从因果来推,比如知道了原子成分和排序,蛋白序列,也知道每个原子蛋白序列的化学特性,能够用它来计算化学键,算最小能量,以此推算稳定结构,从一维序列,到二维结构,到三维结构,到四维结构组。我们知道物理里面实际上就是用第一性的原则,first principle。第一性,然后最小能量,然后算作稳定状态,然后蛋白结构,应该是这么一个东西。
据我了解,这份叫做 AlphaFold 的工作不是基于第一性原则弄出来的。它是用了间接的、有点舍近求远,是一个非常间接的 solution。它是先收集了所有的匹配,就是说每个原子和分子对之间的距离,这是可以通过 X 光,核磁共振,通过各种各样的物理化学实验做到的,它先就收集了这么一个数据库。
这实际上就提供了分子(本来是一维序列)的所有二度关联信息,即点到点之间的物理距离。它同时又收集了大量已知的蛋白质三维结构,然后用深度学习来做这两者的 input/output 的 blackbox mapping。
首先做了从一维序列到二维 pairwise distance matrix 的模型。Pairwise distance matrix 的好处是得到了对蛋白的二维全局观,因为把所有的 n×n 的 pairwise distance 展现在一张图上,就像我们通常的二维图像一样。然后它再通过 pairwise distance 对这个整个蛋白的结构做了黑匣子式的预测,也是通过监督式深度学习。
它的思路绕过了第一性原则——通过算最小能量值,或者是通过物理计算,通过模拟来产生最佳的解。AlphaFold 是直接通过全局的,通过由于结构而产生的 pairwise distance function 来做反推,反推什么样的结构才能够产生这样的 distance function。这个方法很有趣。有点像我们去旅游的时候,不知道自己的下一步目标,但是由于我知道到了下一步目标以后的再下一步目标,然后我来反推下一个目标在哪,是这么一个思路。
这里面充分应用了深度学习的长处,深度学习对大数据到大数据的 mapping 的学习能力很强,能够看到人看不到的一些 insights。从 a 到 b 这一步,机器虽然不善于学,但是从 a 到 c 反而是它能够学到的。人是不太容易学到 a 到 c 的,但是机器学习很容易学到这一部分。然后再从 c 回到 b,这也是机器学习能学的。所以它把 a 到 b 这一步整体 pass 过去了。
我觉得这个思路非常有意思,为什么?因为从 a 到 b 是第一性,是局部的计算,必须得通过紧邻的原子分子的相互作用一步步来 threading,就像一根线怎么慢慢地给它折叠起来,它是一步一步折叠的。但到了 c 的时候,它已经变成了 pairwise distance function,有全局的 information。在预测每一个三维结构的时候,它实际上是通过全体的二维 pairwise distance 来做预测。从全局到局部的预测,通过深度学习的方法来实现。
这个思维方法特别奇特,我甚至觉得有可能获得诺贝尔奖,通过机械的方法实现了对数据的全局观,然后通过全局再来预测局部这样一个结构。在人的计算过程中,我们很难做全局的预测,因为它的计算量太大了,做不到这一点。我不知道有没有讲清楚,但我觉得它的思路本身是有一定的突破性。
最后再举个例子说明AlphaFold和解析蛋白质结构的重要性。
1. 2020年初新冠病毒的基因序列公开,大约1个半月后,2月19日UT Austin研究人员宣布成功解析新冠病毒S蛋白结构。
2. 根据蛋白结构,研究发现2019-nCoV与SARS-CoV具有相同的功能宿主受体细胞——ACE2。
3. 进一步利用表面等离子共振动力学(SPR)来定量研究这种蛋白质相互作用,发现新冠病毒与ACE2胞外域结合的亲和力约为15 nM,要比SARS冠状病毒高出10-20倍。新冠病毒与ACE2之间的高亲和力,可能导致人际之间快速传播。
有了AlphaFold,用计算机快速预测出准确度非常高的蛋白质结构,可以大幅缩短解析新冠病毒S蛋白结构的时间,不用再等1个半月,从而更快帮忙大家理解新冠病毒的特性。
去打游戏
我叫冈萨雷斯,是一个西班牙人,巴塞罗那工厂工人。
1936年,西班牙第二共和国成立的第5年,大选中人民阵线获得了胜利,可把我高兴坏了,他们说要保障工人权利实行社会主义,为此进行了一系列改革。但是军队似乎有自己的想法,政府也不信任军队,为此他们组建了无产阶级先锋队,我加入了,虽然我不知道为什么。几个月来我被派往阿拉贡山区,瓦伦西亚港口,安达卢西亚进行一次又一次的宣传。真是不知道乡下人怎么想的,他们似乎不欢迎我们。听说政府清洗了一个又一个的高级军官,但是内战还是在7月爆发了。我们的对手是一群叫长枪党的人,还有一些保皇派,他们疯了吗想把国王请回来?苦日子没过够吗?我在家乡投入投入了战斗。
我叫埃米利奥,是一个西班牙人,加利西亚的神父。
5年前一群疯子赶走了我们敬爱的国王,现在他们又开始不切实际的改革,什么国有化,什么无神论,这些该死的异教徒,以后要下地狱的。我不关心什么选举,那是城里人的事情,我只想国王能够回到这个国家,带来稳定。一天我的小儿子从军队回来,告诉我要打仗了,我不太相信。饶了我们吧,这世界已经够乱了!但是如果能把国王迎回来,一切都好说。7月的一天,战争开始了,儿子要返回部队了,他的长官也是保皇党,听说他们缺士兵,于是我和我儿子一起来到了前线。我只听我父亲说过他参加的第三次卡洛斯战争,这次轮到我为国王而战了!
我叫弗朗西斯,是一个西班牙人,梅利利亚的水兵。
愚蠢的城里人只知道一天到晚什么改革改革的,还削减我们的军饷。我们这些保家卫国的人凭什么被你们这些人左右,他们懂什么国家,还好军官们也这么想,所以政府指挥不动我们,哈哈!我只知道追随大名鼎鼎的弗朗哥将军,听说他加入了一个长枪党,里面都是些和我一样爱国的小伙子们,我也要为国家而战!虽然我是个水兵,但是听说将军需要更多步兵来和共和军扳手腕,海军马鹿也要上岸了!
我叫乔治,我不是一个西班牙人,我是一个英国人,一个记者。
我在英国接受了良好的教育,又在殖民地为陆军服役了几年,但是我早就厌恶了帝国的虚伪与剥削。我信仰起了马克思,也曾经到欧洲大陆支持过共产主义运动。但是我也反感俄国人,他们不自由,只知道控制自己的人民。他们不是真正的马克思主义。而西班牙人民的选择让我看到了不同的道路,于是我来到西班牙,想见证他们的革命。没想到才来了短短几个月,就爆发了内战,于是我加入到了国际纵队之中,为理想而战。
我叫威廉,我也不是西班牙人,我拒绝承认国家这个概念,是的,我是无政府主义者。
我叫何塞,我是葡萄牙人,里斯本港口工人。
我叫安东尼奥,我也是葡萄牙人,波尔图农民。
……
未完待续