人工智能在生命科学领域的一个新的里程碑!作为合成生物学家十分激动!但是也为结构生物学家捏一把汗(当然不必悲观,具体可以看我整理的一篇文章:孟凡康:AlphaFold能否革命药物设计领域?什么是大的问题?)。
在文章发表之后,我马上写了一篇解读文章,在此分享给大家!
○ 整个人类蛋白质组(98.5%的人类蛋白质)被AlphaFold破译,极大地扩展了蛋白结构覆盖率。
○ 由此产生的数据集包含了58%的残基具有较高置信度,其中一个子集(占所有残基的36%)具有非常高的置信度。
○ 蛋白结构的准确预测带来了高质量的生物学假设,将进一步的激发基础科学、药物研发、合成生物学设计方面的未来发展。
○ Deepmind将通过一个公共数据库(由欧洲生物信息学研究所托管,网址:https://alphafold.ebi.ac.uk/)向社会免费提供所有AlphaFold2的蛋白质预测结果。
在全世界科研机构的共同努力下,现在已经有超过50000个人类蛋白质结构被解析,使智人成为迄今为止在蛋白质数据库(PDB)中最具有代表性的物种。
即使如此,仍然只有35%的人类蛋白质被登记到PDB数据库中,而且在许多情况下,结构只包括序列的一个片段。实验性结构测定需要克服许多耗时的障碍:必须生产足够数量的蛋白质、进行纯化、选择适当的样品制备条件并收集高质量的数据。而不同的制备方法、蛋白质的大小、跨膜区域的存在、无序结构的存在或对构象变化的敏感性等进一步的限制结构的解析过程。因此,蛋白质组的全面结构覆盖仍然是一个突出且巨大的挑战。
蛋白质结构预测通过快速和大规模地提供可信赖的蛋白质结构,有助于解决上述提到的困境。近年来,结构预测取得了实质性的进展,两年一度的蛋白质结构预测关键评估(CASP)的结果证明了这一点。特别是AlphaFold的最新版本以 "AlphaFold2 "的团队名称参加了CASP14。AlphaFold2使用了与DeepMind在CASP13参赛时完全不同的模型,并且在提供常规的高精确度方面比以前的方法有了很大的改进,宣称解决「解决生物学50年内最大挑战」。AlphaFold2近期已经正式开源,相关文章以「Highly accurate protein structure prediction with AlphaFold」发表在《自然》期刊。
为了进一步发挥AlphaFold2的潜力,Deepmind决定将AlphaFold2应用于人类蛋白质组的解析上。2021年7月22日,相关的论文以Highly accurate protein structure prediction for the human proteome为题发表在《自然》期刊上。该工作利用AlphaFold2破译整个人类蛋白质组结构(98.5%的人类蛋白质),极大地扩展了蛋白结构覆盖率。同时Deepmind将通过一个公共数据库(由欧洲生物信息学研究所托管,网址:https://alphafold.ebi.ac.uk/)向社会免费提供所有的AlphaFold2蛋白质预测结果(其中的数据不局限于人类蛋白组,同时也包含部分大肠杆菌、酵母、拟南芥、玉米等在内的超过20中物种的蛋白质结构预测结果)。。
AlphaFold2用一个范围是0到100的指标pLDDT来衡量单个残基的置信度:将pLDDT>90作为高准确度的分界点,pLDDT>70的较低临界值对应于一个普遍正确的骨架预测。下图显示了AlphaFold2在不同pLDDT范围内对一个示例蛋白质的准确性情况。
从AlphaFold2的预测结构来看(下图),在人类蛋白质组中,有35.7%的残基落在最高精度带内(相当于38.6%的残基产生了可信的预测结果)。这是现有通过实验所得结构数量的两倍。58.0%的残基被有把握地预测(pLDDT>70),这意味着AlphaFold2也为PDB中没有良好结构的序列增加了大量的覆盖率(原有的结构解析度低于30%)。对于单个蛋白质的预测来说,43.8%的蛋白质中有至少四分之三的序列被有把握地预测。
以前的许多大规模结构预测工作都集中具有独立折叠能力的单结构域上。但这会带来一些问题:1. 将预测局限于预先确定的结构域有可能遗漏尚未被注释的结构区域;2. 它还抛弃了来自序列其他部分的上下文信息,而这些信息在两个或更多的结构域发生实质性相互作用时可能扮演关键的角色。所以,Deepmind团队尝试利用AlphaFold2对多结构域复合体进行结构预测。为了进一步评估AlphaFold在长的多结构域蛋白上的表现,研究团队编制了一个测试集,只包括大于800个解析残基的蛋白结构。随后研究团队使用新的评估参数—模板建模得分(TM-score)对该测试集的性能进行了评估。TM-score应能更好地反映全局而不是每个单独结构域的准确性。结果表明70%的预测的TM分数大于0.7(下图)。
紧接着团队计算了人类蛋白质组的TM分数,测试集的蛋白结构实验解析覆盖率均小于一半,序列长度至少600个残基。结果中有187个蛋白质的TM>0.8,343个蛋白质的TM>0.7。虽然预计AlphaFold的域间准确度会低于其域内准确度,但这组数据表明AlphaFold2模型在多结构域复合体的预测上同样表现优异
蛋白结构的准确预测能够为生物学研究带来丰富的启示。研究团队在文章中提到了三个不同案例。所有的结构预测都是从头开始的,对象均具有少于25%序列同源性或结构解析覆盖少于20%。
葡萄糖-6-磷酸酶是一种膜结合蛋白,催化葡萄糖合成的最后一步,因此它对维持血糖水平至关重要。但是此蛋白目前还没有实验结构。AlphaFold2的预测具有很高的置信度(中位数pLDDT为95.5),并给出了一个九螺旋的拓扑结构。从预测的结构来看,在葡萄糖-6-磷酸酶的结合口袋附近存在一个保守的谷氨酸(Glu110)。谷氨酸可以将结合口袋稳定在一个封闭的构象中,与其他残基形成盐桥。该位点也是推定的活性位点中溶剂暴露最多的残基,表明可能具有门控功能,但是这个残基以前从未被讨论过。此案例说明了可以从高质量的结构预测中获得新的机制性假设。
AlphaFold2的预测具有很高的置信度(中位数pLDDT为95.9)。研究团队随后根据预测结构确定了一个已知的抑制剂的结合口袋:分子模拟表明此口袋能够对接抑制剂,并观察了到特定的相互作用。在DGAT2的结合口袋中,研究团队确定了两个对口袋结构关键的残基(Glu243, His163)。以前对DGAT2的实验工作表明,突变His163有更强的负面影响。此外,Glu243和His163在不同的物种中也是保守的,进一步支持了AlphaFold2预测结构的可靠性。
Wolframin是一种定位在内质网中的跨膜蛋白。WFS1基因的突变与Wolfram综合征-1有关。Wolfram综合征-1是一种神经退行性疾病,其特征是早发的糖尿病,逐渐的视觉和听觉丧失,以及早期死亡。虽然AlphaFold2对Wolframin的预测置信度较低(中位数pLDDT为81.7),但是预测得到的结构信息与之前的理论分析高度吻合。通过结构分析,研究团队推测一个富含半胱氨酸的结构域可以用来招募其他蛋白,所以此部分的结构信息将为未来研究其招募的蛋白提供重要的参考。
无序结构在真核生物的蛋白质组中很常见。之前的一项工作估计人类蛋白质组中无序残基的比例为37-50%。因此,当AlphaFold2对整个蛋白质组的全面预测时,我们应该期望有相当比例的残基在溶液中总是或有时处于无序的区域。此处的无序包括本质无序的结构域和仅在复合体时具有稳定折叠结构的结构域。此外,研究团队还观察到PDB序列中已解决和未解决的残基之间的pLDDT分布有很大差异(下图)。同时研究团队发现pLDDT是非常好的蛋白无序状态预测器。无序预测结果表明,相当大比例的低置信度残基可能是由某种形式的无序状态导致的。
总之,研究团队目前对AlphaFold2对部分结构域表现出低置信度解释是:这些结构域有很大可能是孤立条件下的无序化。目前,AlphaFold2把pLDDT<50的长结构域呈现为带状外观,应该被解释为对无序状态的预测,不应该被解释为结构信息。
在这项工作中,Deepmind团队利用AlphaFold2对人类蛋白质组进行了最全面的结构预测。由此产生的数据集为蛋白质组的结构覆盖度提升做出了巨大的贡献;通过提供可扩展的结构预测和前所未有的准确度,AlphaFold在结构生物信息学上进展令人震撼,而这将进一步极大的拓展生物蛋白质的可研究空间。
当然,未来的Alphafold仍有关键问题需要解决。
○人类蛋白质组中仍然没有可靠预测的部分代表了未来研究的方向。其中有一部分的预测是失败的,即存在一个固定的结构,但当前版本的AlphaFold并不能预测它。在其他许多情况下,序列是孤立的、非结构化的。要解析这些结构域的话,开发基于生物学原理的新预测方法至关重要,例如预测该结构在复合体中的折叠方式或预测复杂细胞环境中可能的折叠状态的分布。
○ 同时我们也应当意识到,Alphafold只是提供了强大的工具,但是对生物学问题的解决需要全世界科学家在不同领域的不断探索。各领域包括蛋白结构、药物设计、合成生物学元件开发或者蛋白质设计领域的复杂性不仅仅是蛋白质结构预测问题,还有很多更加复杂,需要我们正视的难题。
但是,人工智能驱动的生物学研究时代呈现的无限潜力是如此的激动人心,更多的生物蛋白质组也值得去探索和挖掘。人类蛋白质组因为其在健康和医学上重要性而被深入研究,但是其他生物体在现有的结构数据则相差甚远,包括很多具有生物学意义、医学意义或经济意义的物种。精确的结构信息可能会开辟出全新的研究途径,对这些生物的研究产生更深远的影响。同时精确的结构信息也将对合成生物学领域中的蛋白质元件设计、定量生物分析,定向进化等等提供强大的分析工具,进一步提升人类对于生物系统的工程改造能力。
END
alphafold目前还不能解决所有结构生物学问题,只能覆盖简单情况,但是计算领域的发展速度是指数级的。相比于线性发展的传统学科,一旦跨过临界点,大部分被计算替代只是时间问题。
当然领域知识肯定还是重要的,尤其是生物这种知识非常杂非常碎的领域,前提是要抓紧时间学习新技能,过柱子之类的本来就不值钱的手艺,将来只会贬值的更快。。。
另一方面deepmind展示了工业化集团攻关的科研形式,相对于传统的一个教授(领主)带几个学生(佃农)的封建式科研形式的优越性,理工科研发展到现在生产关系已经在抑制生产力发展了,急需改革。
谢邀。
大家想了解这个文章的一般性意义看上面再创的答案,对文章介绍很全面了。简单来说就是人类自分子生物学建立以来,轻易就能掌握蛋白质的一级结构(氨基酸序列),但掌握高级结构(就是折成什么样)一直比较困难。现在有了AI,可以从已知的高级结构和一级结构的关系里学习规律,准确预测更多蛋白质的高级结构。从而可能可以提示一些原来不知道的蛋白质特征、作用机制、相互作用、适配分子等等。总之就是一口气把蛋白质结构的预测能力推进了一大截,然后涌现出不少值得研究的事儿。不过我感觉很多人激动的主要原因并不一定是真的用得到这些蛋白质结构,而是因为传统方法被AI碾压产生的一种见证感。就像原来围棋弄了很多等级,积累了很多棋谱,传颂着不少为人津津乐道的人物故事,然后来了个AI不按套路下棋还把世界冠军轻松碾压了。
我个人的角度,因为在我自己的研究方向里,蛋白质结构信息只发挥一些参考作用,因此不属于受益最大的群体。对我个人而言,主要的变化是未来在研究中,如果有需要,可以获得更多蛋白质更准确的预测结构了,也许对于项目的帮助更大一些,但并不是很相关。
其实我很期待真正能够从这个进步中受益或受到巨大影响的群体来结合自身例子详细谈一谈。比如那些研究项目、研究方式和研究方向会因此发生根本性变化的研究者。
因为我的朋友圈里都在刷屏这个新闻,但其实其中只有很少的人平时研究中会有需要大量精确蛋白质结构数据的需求,大部分人就是一两句感叹就没有然后了。
如果是因为人工智能用于蛋白质结构预测可以大幅扩展结构可预测的蛋白质的集,那过去4年来,大家应该早已预见了这篇文章的成果,朋友圈这个反应有些过度。
另外对于这种工具是否会对传统结构生物学研究产生影响,或者产生多大影响,我对现在一些议论持怀疑态度。因为我还没有从逻辑上疏通为什么一种基于学习的蛋白质结构预测工具可以直接冲击蛋白质结构测量工作的需求。退一万步,别说一部分蛋白质的预测结构,就算有一天破解出所有蛋白质的真实结构,也类似于HGP,还需要漫长的过程去研究和理解这些结构的动态和作用。
我看了某自媒体对施一公的专访,我是不太理解那采访逻辑的。就好像当预测天气的数值预报模型更新的时候,去问一个气象观测专家:百叶箱和气象站很贵,您有没有用数值预报的计划?然后朋友圈好多人起哄:搞气象观测的要失业转行喽,盖气象站的钱赶紧拿去买电脑。。。呃,我只能说我满头问号。
最后,我有一个遗憾就是生早了,见证了AI改变人类文明的起点,但真正强AI完全重塑的那个世界却看不到了,有点可惜。
因此,我想这个新闻对大多数非相关专业的朋友的意义在于,你响应国家号召生孩子是没错了。未来那个AI加持的星际文明的曙光已经出现在这代人的浪漫展望中,虽然你看不到,但是到时候那个梦幻般的世界没有来自你的后代参与其中,多么遗憾。
在AlphaFold2 解决了蛋白质结构问题吗?DeepMind 解决这项生物学五十年难题有何重大意义? 中提到,传统上,我们使用包括X射线晶体学、核磁共振以及冷冻电镜(cryo-EM)等技术来解析蛋白质结构,这些技术得到的结果很可靠,但成本和耗时都非常高。不过它们是关于蛋白质结构的金标准。而AlphaFold2的预测结果是有误差的,特别是在一些特定场景下,误差可能非常大而结果并不具有任何参考性:
另外,AlphaFold2在不同数据集上表现差异很大,PDB(Protein Data Bank)[1]上有结果的蛋白质,其预测结果好,没结果的蛋白质,其预测结果大部分没有参考意义(以pLDDT>70计). 而PDB是收录已经被解析的蛋白质结构,本身具有一定的幸存者偏差:结构简单,规律性好,容易解析的更可能被前人解析,从而被PDB收录。也就是说,跟其他神经网络性能一样,在常见数据上表现好,在长尾数据上表现差,这是容易理解的。
所以,据此说结构生物学家失业了,那是大错特错。相反,在常规数据基本被解决之后,长尾数据变得更加需要结构生物学家的工作,其急迫性增加了。这一点我们可以类比人类基因组计划[2],在越来越多的基因被测序之后,基因测序这项工作并没有消失,相反,它的需求变得更多了、更普遍了,而且变得更具有基础工具性了。
从应用上来看,该结果必将大幅提升一些工作的效率,比如药物研发、降解酶研发、抗药性研究等等。这也类似于基因测序研究扩大了基因在工业中的应用场景。另外,AlphaFold2预测准确性差的区域也为蛋白质结构研究指出了明确的方向。
生物的世纪真的来了,但是……
从整个科学研究的广度来看,AlphaFold继续获得巨大成功,影响并不只是生物学。事实上,在计算机科学,AlphaFold现在已经是,并且(在此之后)几乎一定会被当做科研「第四范式」时代标志性事件。这样,说我们正在见证历史应该并不过分。
换句话说,以后的科研发现,很有可能先有大量数据(比如基因数据),再通过计算和算法自动形成推论(比如AphaFold发布的蛋白结构预测,和一些结构性推论),最后通过现实实验确认,诠释自然现象。这就是图灵奖得主Jim Gray在去世前前最后一次报告中所预测的,科研的「第四范式」的到来。
如果用比较简单的话讲,就是以后AI工具和数据分析工具或许会成为任何学科科研必须学习的工具,数据和算法在科学研究中地位将会大幅度提升。「范式」这个词比较形而上学,我可以用之前做的一个PPT向简单大家介绍这对于计算科学的意义。
「范式」(Paradigm)其实是大家英文写作里比较常用的词,这是指已经形成模式的,可直接套用的某种特定方案或路线。在计算机科学界,编程有编程范式,数据库有数据库架构的范式。从某种程度上说,可以被当成是大家都在遵守的「套路」。「Paradigm Shif」往往代表着某个「套路」发生了变化。
比如,牛顿为经典力学建立了比较完整的数学体系,所以此后数十年的研究,都基于牛顿力学和引力理论之上。
在最早期,人类的科学发展完全依赖实验科学,主要以记录,描述和归纳自然现象为特征,从原始的钻木取火,发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段,开启了现代科学之门。在这段时间,科学研究很少依赖计算或者复杂工具,当时也出现了很多耳熟能详的实验,比如比萨斜塔实验,从此科学实验成了当时最主要的科学进展方式。
但是,在当时,实验条件往往非常简陋,实验本身受到的干扰因素过多,并不能非常精确的反映物理现象,所以科学家们开始简化实验模型,开始简化假设,然后通过数学和计算方法进行归纳总结,这就是第二范式。这段时间,因为实验结果和理论发展契合的非常完美,所以在19世纪末达到顶峰,出现了例如牛顿定律诠释了物理学,麦克斯韦方程组诠释了电磁学,在信息学里也出现了例如图灵,香农等大师和经典定律。
20世纪中叶,冯·诺依曼提出了现代电子计算机架构,利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及,从此随着计算机组件的小型化,单位计算成本逐渐降低,计算机仿真越来越多地取代实验,成为科研的常用方法。
大家在做科研的时候,估计会很经常使用计算仿真,所以大家应该会非常理解第三范式。很多人经常会问,“科学问题是什么?”,“有什么科学假设?”,这就是先提出可能的理论,再搜集数据,然后通过计算来验证。
这就是「第三范式」,科学家会希望完成更加精确的物理世界建模,再通过仿真验证自己提出的科学问题和假设,最终(可能会)在现实中完成实验。
2013年左右,诺贝尔化学奖首次颁发给计算化学家,这是第三范式的标志性事件,从此化学也算是进入了信息时代。
甚至,随着第三范式的到来,天气预测也逐渐从玄学,进化到科学。这就是我们大多数学科所处的阶段,这一阶段最明显的特点是,
其实可以认为,AlphaFold是目前科学研究正在进入「第四范式」时代的标志之一,和「第三范式」时代不同的是,
而和以前非常不一样的地方是,我们通过算法和数据得到的结论,往往并不是强因果的,而是强相关的。以AlphaFold为例,它并不会一步一步告诉我们,人类蛋白质的结果为什么会是这样,它会告诉我们「是什么」,也会告诉我们「数据之间的显著性关联」,但是这些数据到底代表着什么?
我们需要自己寻找,正如DeepMind论文在最后做出的一些预测,试图找到这样的insight。
其实在几年前,就有很多人在讨论我们应该更好的利用数据,通过算法挖掘数据中的科学内涵,但是既没有太多标志性事件,也没有足够通用的工具来非常有效的挖掘数据的联系,所以之前完全依靠人工的数据挖掘非常低效。
AlphaFold独一无二的地方在于,它告诉我们,「第四范式」的科研效率可以比「第三范式」更加简单高效,如果我们把精力放在算法设计上,那么我们或许可以更简单的找到某些学科的真相,从这个观点来看,设计AI算法达成的效率比人类的重复性试验更加有效。
但,即使AlphaFold成功,我们也依然有很长的录要走。好处是从此以后,或许会有越来越多以AI为工具的研究遵循这样的「范式」,论文写作也会遵循这样的结构----搜集数据,设计算法,找到结论,解释结论中对人类的意义,或许还会再加一步,通过实验验证结论。
这会是以后,基于AI的科研步骤和逻辑(科研范式),这也是AlphaFold可以给计算机领域带来的一些启示。
完。
凡康的答案里面已经对AlphaFold2的工作做了很详尽的介绍了,各种优点我就不多赘述了。我来补充一些评论吧,回答一个“如何看待”的问题。
对于不想看长文讨论的同学而言,本文可以缩短成以下几个部分
1. 结构生物学家不会失业,相反,仍然会有很多工作
2. AI+biotech的团队有的会受到冲击,有的会开始起飞
3. AlphaFold2通过对人类蛋白质组的分析,展现了很多局限和不足
3. 蛋白质结构预测的圣杯仍然没有被摘下,大家一起努力工作吧!
先说我的结论:绝大多数结构生物学家都不会失业。
我们可以粗暴地将结构生物学家一分为二:
一种是做各种各样复杂的多组分蛋白质复合体,以及蛋白质动态结构的,哐哐发CNS,典型的例子就是施一公老师(虽然因为各种原因,施老师现在比较招黑,但是u1s1,人家结构生物学的工作还是很漂亮的)。这类工作目前还不能够被AlphaFold2所替代,原因我们先按下不表,我们后面来讲AlphaFold2目前的一些局限和不足。
另外一种就是去解析简单蛋白质的结构生物学工作,或者是以灌水的形式发表文章,或者是以和其他或基础研究或应用工作合作,作为文章的一小部分。这一大类工作,从历史经验上来看,也不会被AlphaFold2取代。
在过去AlphaFold2还没有出现的时候,其实各种计算结构生物学工具都已经能预测各种各样的蛋白质结构了,其中很多结果其实还是相当精确的。低复杂度的问题可以用比如说同源建模的方法,问题复杂度更高的可以使用trRosetta(也就是AlphaFold决战紫禁之巅的RoseTTAFold的前作)。但是蛋白质结构测定的工作,仍然只有极少的部分从结构生物学家的手中移交到了计算结构生物学家的手中。
一个表面的原因是,这些算法再好,仍然是有缺陷、有不准的时候。我们不做实验,怎么知道预测出来的结构对不对呢?但实际上在其他的科研领域,我们很容易就找到反例。比如说在合成生物学,有各种各样的计算工具,预测精度差得令人发指,大家仍然用得乐此不疲。
所以我觉得,实际原因,是科学家的共识问题。归根结底,在于科学共同体也是个社会小圈子。所有的科学活动都建立在同行评议的基础上。那么如果大家都觉得,你需要做实验解结构,那么就算有再好的工具,你发文章的时候也要解结构。这个习惯,会在一次又一次的科学发表和同行评议中被不断强化。
只有一代人都退出历史舞台之后,新的共识才能逐渐形成。
Science progresses one funeral at a time.
当然,改变还是会存在的,解析简单蛋白质就能发CNS的时代,是一去不复返了(比如说抢发Covid-19各种结构的盛景)。
在我印象中,计算生物学使用AI相关技术由来已久。但是从DeepMind的AlphaGo暴打Lee Sedol开始,才有越来越多的人,开始讲一个AI和生物学的story。很惭愧,我也不能免俗,从2016年开始在合成生物学里面大量地使用机器学习的技术。包括今天我们创业做startup,AI也是我们的核心能力之一。只能说,真香!
到了可能大概是2018年前后吧,就冒出了一大堆AI+的生物技术创业公司。其中大家经常听到的相当一部分是AI制药的。
我觉得这些AI+生物的团队,不管是企业,还是科研院所的实验室,也可以粗暴地分为三类:
第一种,核心能力是AI,全部的工作内容是写AI。这部分团队会主动地更卷了。
比如像DeepMind,Baker lab,这种团队后续可能还会接着卷。像去年CASP14结束之后,Baker组根据放出来的一点点信息,就很快借鉴作业,搞了RosseTTAFold。虽然说预测准确度整体还是不如AlphaFold2吧,但是也有其他的优点,可谓各有所长。那么AlphaFold3是不是就不远了?
第二种,核心能力是AI,绝大多数的工作内容是用AI。这部分团队的要被迫更卷了。
原来这些团队里面也会有很大一部分人做算法开发。然后大家再用自己的算法和模型,做各种各样的蛋白质结构预测,在计算机上筛选小分子或者大分子药物,做docking等等。
除了极少数的能拿到非公开数据,以前大家都是靠公开数据库吃饭,那么各家比拼的就是算法和算力了呗。现在AlphaFold2出来之后,会让相当多团队的算法水平,起码在蛋白质结构预测算法上,被拉到同一个起跑线上。但是其他方向的算法护城河也未必就守得住。比如说,以今天AlphaFold2开源的内容来看,小分子或者大分子结合态的结构预测,拿AlphaFold2稍作修改完全可以搞得定。甚至我们可以设想,如果DeepMind一直研发并继续开源下去,那用不了几年,大家比的就是抄DeepMind的速度有多快了。
最后大家就是拼算力了。但是……谁会有Google算力更强呢?
第三种,核心能力是生物,一部分的工作内容是用AI。这部分团队喜大普奔,能用的铲子更多了。
这种团队里面,做计算的是一部分人,还有另一部分人是做实验的。这些做计算的人,每天又要做算法开发,又要做应用,偶尔还会被抓去实验室做搬砖的壮丁,忙得要死。现在好了,有了AlphaFold2,调包专心做应用就可以了,极大解放劳动力。以前可能要几个月才能搞定的事情,现在一两天就做完了。
这个事情吧,我觉得还真的不是AlphaFold2非要发一大堆预测结果,出来吊打结构生物学家,或是各种AI+的同行。
本质上,这就是个常规操作。AlphaFold2利用大量的PDB数据进行训练之后,大家发现AlphaFold2在PDB数据上面表现很好,那自然而然地,大家就会关心:这个模型的泛化能力怎么样?
最好的测试方法,就是那一大群模型训练的时候从来没见过的数据,来测试AlphaFold2的表现。
那么…既然这些蛋白质都预测了,既然都要开源了,为啥不再灌一篇nature呢?【狗头】
AlphaFold2虽然强无敌,但是不得不说,还是通过这次人类蛋白质组的测试展现了很多局限性和缺点的。
我个人认为,这篇paper的学术意义甚至大于AlphaFold2的介绍(毕竟代码开源比介绍更直给)。通过AlphaFold2在非常广阔的蛋白组中的表现,暴露它的局限和问题,可以帮助我们指明未来的方向。
由于AlphaFold2还是比较吃算力的,这样的工作,如果不开源,大家要花非常多的时间和资源才能重复出来。通过分析这些局限,我们可以更清楚地看到未来大家可以研究什么。
相当多的计算生物学和生物信息学软件都是一个普通的笔记本就能跑得起来的。
而AlphaFold2的部署,需要“3TB储存空间、85GB内存、和Navidia GPU”。
相比而言,RoseTTAFold可能会更友好一些,一个“普通”的高配电脑就能带得动。这可能会导致RoseTTAFold能更快地被封装成,并广为传播。
虽然说,从原理上来讲,AlphaFold2对单链的蛋白质或是多组分蛋白质,应该都能跑得起来。但是实操上,多组分的蛋白质复合体,原子总数要比单链蛋白质一般大得多得多。现在AlphaFold2的测试上限是不到3k个氨基酸,那么相当多的蛋白质复合体,是超过这个数字的。
AlphaFold2并没有整合多少先验知识。对于经典的各种二级结构,蛋白质的结构空间相对是比较有限的,而PDB提供的样本量足够多,因此AlphaFold2的预测结果很好。
但是对于无规结构,那一串氨基酸想怎么飘就怎么飘,稀奇古怪五花八门的结构都存在与天然的蛋白质构象当中。当可能性的多样性过高,这时候PDB提供的这点数据就远远不够了。相比而言,传统基于物理的方法可靠性反而要高得多。
结果就是在无规结构的预测上,AlphaFold2普遍放飞自我了。
我们能得出什么结论?无序蛋白会变成后AlphaFold2一个非要重要的议题 —— All in 相分离!【狗头】
前面讲到,大家用PDB数据训练并测试了AlphaFold2之后,自然就会考虑测试AlphaFold2的泛化能力了。通过AlphaFold2自己对预测结果的置信度分析来看,结果只能说非常的不理想。
这个也比较好理解。PDB有数据的蛋白质,和PDB上没有实验结果的蛋白质,是两个高度有偏的数据集:统计上来讲,很可能越是容易被解析的蛋白质,PDB上的数据可能越多,数据质量也越好;而越难被解析的蛋白质(难以蛋白表达、纯化、或者分析结构),PDB上的数据就越少,数据质量也越差。
那么AlphaFold2可能学习到了很多feature,是容易被解析的蛋白质所共有,但是缺很难泛化的特征。也就说,这些是PDB数据的feature,而不是天然蛋白质的feature,更不是所有蛋白质的feature。上面讲到的AlphaFold2对无规结构的无力,也可能与此有关。
这个说起来,也得说是一个PDB数据的feature,而不是蛋白质的feature。早年的大量数据是来自晶体学的,那么一个蛋白质满打满算也不会有多少构象被解析出来。但是实际上很多蛋白质的结构是高度动态的,而并非一个静态的稳定的结构。
随着冷冻电镜的开发和使用,有越来越多蛋白质的柔性动态数据被揭示出来。最近的例子就是新冠病毒Covid-19的S蛋白[1],就有柔性结构,而且和其免疫抗原性息息相关。
All in 冷冻电镜!【狗头】
AlphaFold2刚在CASP14问世的时候,大家普遍都讲什么蛋白质结构的问题已经被解决了。
我觉得今天这篇人类蛋白质结构预测的文章很大程度上能让大家回复理智——蛋白质结构预测其实还远远没有被解决。仍然有非常多的问题亟待解决。
大家可以对AlphaFold2的预测结果进行分析,从而可以更好地优化AlphaFold2。而这么大量的数据如果要分析的话,肯定也少不了AI的应用。
仍然可能有会有新的算法突破。我在AlphaFold 1问世的时候就讨论过不同路径的可能性。我今天仍然认为,先验知识是有用的,以蛋白质序列空间的复杂性而言,完全的数据驱动是不能解决所有问题的。
而且,今天这个实验数据数据量仍然还是不够。结构生物学家们,请继续努力!
计算机的人实现了“21世纪是生物的世纪”的口号。
所以学什么不用多说了吧.....
看过他们的文章之后,觉得算是情理之中;
首先,我之前接触的蛋白质三维组学是在别人吃饭聊天的过程,所以看得过程中很多原理性东西完全不懂。
最近在恶补这部分知识,如果写错什么还望指出;
为什么说“情理之中”;
我面先看看之前比赛中,alphafold1的文章里面说明。
其实在多肽链比配之后进行搜索templates部分是很多传统分析的手段;
这里我把trRosetta的方法也贴出来:
其实对于分析的结构真的只分析到相互作用的角度层面;
同期发表的RoseTTAFold九江MSA和templates分开做attention了(虽然我觉得他们灵感来自alphafold):
其实看到中间黄色区域,已经能看到设计的精妙,在MSA上先做attention之后,再转回到模板文件里,进行特征融合,再循环attention;这个就相对传统值做templates上的CNN优势就大很多,并且还用了transformer的策略。
但看过谷歌这部分的分析:
他多了一分部分子和分子作用的拓扑结构图,在templates上面;
其中合并后的pair representation也和传统出现不一致,存在了方向性;
在分子间的空间拓扑结构也给出新的定义attention的方法:
这四种关系就是对应下面在transition之前的四个结构。具体code还没读,但估计通过那四个结构可以将这种类型的分子结构分离出来;
到后面IPA(不动点)那一块的骨架模型,背景知识已经不够了,最近在找课程补一下;
但从前面对于分子关系部分就能看出来,AlphaFold2不是单纯的塞一个transformer硬分析,它融入很多背景知识的支持。
它的优势是肯定具有太多对于蛋白质三维结构的经验总结才获得的,所以获得这个结果也是正常的。
21世纪是生命科学的世纪×
21世纪是人工智能的世纪√
其实生物学发展到了21世纪,大的理论框架已经比较成熟了,就是一些细节的修修补补。
主要的就是各种实验发现。
但人体用着太多的细胞,有各种复杂的微观解构,所以很多实验都难以复现,尤其是蛋白质领域。
以前靠大量的人力刷试管,效率还很低。
现在来看,人工智能必将大量替代生物搬砖工。
各类微观结构的破译,也必将促进分子、细胞学领域的快速发展。精准的结构,必将使得实验结果的判断也更加的准确。
当实验难以复现成为过去时,生命科学也将迎来全新的时代。
并反哺到医学、医药方面,彻底改变生活的方方面面。
就说你鸡蛋返生孵小鸡吧?如果需要1万个步骤,第一步至少先搞清楚鸡蛋的所有蛋白质结构吧。
但如果只靠人工,那就是完全的扯淡。
一颗鸡蛋大约有6-7克的蛋白质。
氨基酸的平均相对质量是128,那么,一颗鸡蛋大约有0.05mol的氨基酸,约:
3×10^22个。
哪怕出问题的氨基酸只有一百万分之一。
那么也有3×10^16个,也即3亿亿个。
哪怕平均每1秒钟完美恢复一个在四级结构中的精确位置,那这也需要9.5亿年的时间。
即便1秒钟能控制1万个分子恢复,也需要近10万年的时间。
所以,如果没有人工智能,单靠人力是根本不可能完成的。
生命科学最前沿的部分,对大数据的需求已经越来越强。如果你能把大脑的所有微观解构完全破译,关于意识的终极秘密也自然浮出了水面。意识上传之类的,能还是不能,也已经有了答案。
破译人体所有的微观机制,什么寿命和衰老问题,也不再是问题。
但对于目前的人工智能来说,人体依旧还是天文数据。
或许在未来,在生物实验时使用人工智能,会和刷试管一样常用。
最后,劝那些想要学生物的小友们,要么要和计算机、人工智能相关,要么要和医药相关。