我先给大家看3张对比图。
可能三个图有点抽象,但是大家仔细看的话,是不是觉得类似?
第一张图来自剑桥大学这次发布的论文,第二个图来自版纳所发的论文,第三个图来自中国科学家的联合团队。
没错,大家分析的数据库来源是一样的,都是禽流感病毒GISAID数据库。这个数据库最早是分享禽流感病毒序列的,为了方便大家监控全球禽流感病毒的突变情况,那么19年底它有了一个新作用是分享新冠病毒的数据库。
其实我对以上的3个图片背后的论文都有一个不好的判断,就是,样本量太小,不足以说明问题。但对于后边2篇中国学者发布的论文,我只是提出了这个问题,我没有去指责,为什么呢?因为这都是2个月以前的发布的,当时GISAID数据库一共就100左右个序列,还能让分析人员怎么办?
但是,今天剑桥发PNAS这篇,是在是太丢人了。
就刚刚我去GISAID数据库看了一下,已经有几千个病毒序列了,你就选160个做分析?全球有160万人感染你分析160个数据能说明个啥?
最早就说没有5000个队列分析出来的数据可靠性有多大这个争论,不知道大家还记得不?
这是我刚刚在GISAID数据库截的图,这是从去年12月到今年4月的3123个序列样本的分析,每一个颜色的点都代表不同的采样国家。
比如我现在选中的是中国的样本。
而红色的点代表美国的样本。
包括病毒的传播和分部路线都有。
这些在以上网址里都有,甚至还有贴心的中文版。
此系统发生显示新的冠状病毒(nCoV)COVID-19流行病毒的进化关系。 所有样品相对于一个共同祖先与最多八个突变高度相关,表明在2019年11月至12月某个时间共有一个共同祖先。这表明2019年11月至12月初次人类感染,随后持续的人对人传播导致 采样感染。
站点编号和基因组结构使用Wuhan-Hu-1/2019 作为参考。 系统发育植根于武汉的早期样品。 时间分辨率假定每个位点每年的核苷酸取代率为5 × 10^-4个。
当然你们可能觉得,在有5千多样本量的当下,一个160个样本的分析是怎么上PNAS的?必然有可取之处吗?我来给你们透漏一个PNAS的规则,就是它是有内推权的。有大波人可以直接内推论文上PNAS。
如果要对比,这篇文章质量比不上中国科学团队的那篇,甚至都比不上版纳所那篇样本90多个的文章。甚至都不如现在上GISAID数据库直接看结果来的有用。
即便这样,我还是给你们分析下论文的内容。
论文提出他们发现了ABC三种不同的病毒分型,认为A类型古老,而B类型主要出现在亚洲,AC是主要出现在非亚洲地区。
但是它有自己讲A型中有4个中国广东地区,2个美国地区,美国地区的人是从武汉回国的。眼熟不?
没错,这就是版纳所那篇文章中提到的广东的H13和华盛顿的H38,一模一样的东西这篇文章又说了一遍。所以作者在全文中并没有提出病毒可能最早出现于美洲,也没有说最早出现在武汉。题目里问文章说的那么一堆ABC的说法,我很好奇论文是写在哪里了呢?是怎么解读出来的呢?
同时作者认为A型与蝙蝠型比较接近,这个也是当初和版纳所得到的结论是类似的。
没错,还是这个H38当时版纳所还好歹假设了一个源头mv1过度了一下,这帮作者就直接硬上了蝙蝠。那么这种只从相似度的角度来判断源头的意义有多大准确度?
至于现在病毒的突变情况,大家看我上边这个截图,只要有基础知识的都能看出来,这是6个分型了吧。从最早的没有分型,到后边的S和L分型,到剑桥这个ABC,在到现在的6分型。只能说,剑桥这篇文章,没赶上热乎气。
论文作者也说了,他们在分析的时候是3月初,那会就数据库里就253个数据。如果这文章是3月初发的我觉得还能看一看,现在就真的没啥意义了。
截图里说作者运用了什么DNA追踪史前人类的说法也是忽悠人。其实作者在论文中提的是,以前科学家用线粒体DNA来追踪人类祖源,因为线粒体是母系遗传,所以追踪的是母系祖源,后来发现一堆问题,就加入了Y染色体追踪,也就是父系祖源。现在我们在计算人类祖源的时候是父系母系一起判断的。
但是让我很好奇的是,母系祖源和父系祖源追踪的方式,跟病毒是怎么结合在一起的?要知道新型冠状病毒就一个3万碱基的RNA单链,你是怎么区分出父系母系的?我很好奇,求知乎高手解答。
这种图纯粹是骗书呆子的。
从这种图看,好像紫色的武汉版本,变异感染全世界。
但是,如果你把红色作为中心来画呢?是不是能画出红色感染全世界?
谁更早一些?不是应该看谁和病毒的来源更接近一些吗?
剑桥的论文,也是先把祖先定为蝙蝠病毒。
然后就是美国和澳大利亚的版本更早。中国的晚点。
而如果你的屁股先把武汉版本定为原始病毒,而不是把蝙蝠身上的定为原始病毒。
那就是武汉版本变成美国版本欧洲版本。只看人类病毒,谁先谁后,谁变成谁,说不清楚,屁股问题。
但是你把原始蝙蝠的病毒列出来,就清楚了。
把蝙蝠作为原始病毒,160个样本和以后再多的样本都不影响结论。
除非你在武汉找到比美国更接近蝙蝠的病毒。
而5000个样本也没有。
这纯粹是个屁股问题。
你把武汉版本当源头画线,就能把传入武汉的原始病毒,当成武汉版本的一个变异。
你把蝙蝠身上的病毒当原始病毒划线,就能找出美国和澳洲的源头。
哪一个更符合现实和逻辑呢?
英国这个论文验证了一下美国起源的问题。
美国人2015年从中国拿到蝙蝠病毒,石正丽论文挂名,美国人在2015年发论文,证明自己能编辑蝙蝠病毒,还能感染小鼠。
美国人2019年研究病毒抑制剂,美国陆军传染病实验室中标,公开招聘人员。
2019年8月实验室两次泄露,被cdc关闭,2019年11月,实验室泄露被当时报纸捅出来。
2019年8月,电子烟肺炎,小爆发,病毒原始版本弱
2019年9月,季节流感,中爆发,病毒已经可以人传人
病毒原始版本已经在欧洲传播,太弱被隐藏
2019年10月,美国搞全球传染病演习,模拟新冠的全球传播,高福参加。美国cdc高层知情,CIA应该知情,陆军少部分人知情,特朗普和高层可能不知情。
2019年10月,军运会传播中国。
病毒在海鲜市场附近,变异到高传染力高毒性。被中国首先发现。
伊朗,意大利,美国都进化了。
美国流感死亡大量增加。cdc的模型,一个月死了之前一个季度的数量。
因为中国公布了病毒序列,全球才可能检测。
意大利发现,欧洲发现,实际已经传播几个月了。病毒在欧洲也已进化到高传染力,高毒性。
病毒传回美国,本土有原始版本抗体的依然ADE。
美国在3月初前以原始版本评估病毒,应对失利,浪费了时间。造成美国爆发。
在知情的情况下,特朗普用中国病毒甩锅。
2020年3月,美国高层知情,开始大量删除互联网关于病毒泄露的新闻,发论文验证电子烟肺炎就是吸出来的,不是病毒。
写在篇前的话
0,数量不代表起源
题目有个很大的歧义点,一些人一看到A型更古老,且美国更多,就直接像打鸡血了。数量多,更多的是传播问题。你们还记得把病毒分为S和L型的NSR文章没?S型古老,L型年轻,结果在武汉L型占了96%多,而其原因在于L型更具有侵略性。
而作者对于哪型在哪个区域更多也指出了,这是进化选择的结果,不同类型适合不同的宿主。
These genomes are closely related and under evolutionary selection in their human hosts, sometimes with parallel evolution events, that is, the same virus mutation emerges in two different human hosts
1、这篇文章最大的亮点是算法上,用了人类学里的算法去尝试病毒。
毕竟论文的主要贡献者就是那个唯一不是foster的人目前兴趣之一是人类学。通过新的算法发现了病毒的平行进化现象(parallel evolution),也就是病毒的不同类型适合不同的人群,A类型适合北美,B类型适合东亚。当然,之所以出现这种情况,是和病毒的奠基者效应(所谓奠基者就是后代群体的样子很大程度取决于祖先)
关于这一点 @好大一盆绿萝 写的非常精彩,我就不狗尾续貂了。
2、病毒多样化和病毒源头是两码事。
很多时候我们容易产生一种看法,就是你看xx地方的多样性更高,那么它就更可能是起源。包括之前的那个广为流传的某视频。其实,这个是不对的,简单直白的, 美国的族群规模复杂程度很高,但是你肯定不认为美国是人类起源吧?
同样,数量最多也不能代表源头。
3,文章使用的参考基因组依然是最早发布的武汉测序的那一个
这一点倒是业内通用的,毕竟第一条上传的序列,往往会被当做参考序列,剩下的序列会和它比。
The sequence range under consideration is 56 to 29,797, with nucleotide position (np) numbering according to the Wuhan 1 reference sequence
这里其实有个小小的问题,那就是,我们事实上默认了这个早了,后面的所有病毒都是由这个变异来的,但是有的时候,或许换个参考,或许不一样,不过这个问题有一个最大的障碍就是蝙蝠的序列。所以,如果能够找到更古老的病毒序列,甚至直接找到个可以把现在病毒都当做姊妹群的病毒,或许整个状况都要被改写,毕竟根序列变了,那很多东西都要变。
4,还是一个样本规模问题
其实这个问题讨论过很多了,就是,现在几乎所有的分析,全是依赖于最开始的那一波数据,然而我们都知道,那一波数据是有源头性问题的,因为我们直接默认了华南海鲜市场,而后来证实,华南海鲜市场并非最早起源,顶多是个爆发点
事实上,理论上,如果我们对武汉当地的病毒进行更多的全基因组测序,或许发现更多精彩的东西,不过我们早就停下来了,毕竟这东西做了对抗疫也没啥用,还花钱贻人口实,那不是自讨苦吃吗哈哈。
5,文中看了会有不少可能很多读者会直接想说“你行你上”的内容。
首先我是不太认可“你行你上”这种理论,否则论坛有啥存在意义呢?直接崇拜权威罢了,其次PNAS这个期刊一直有个备受诟病的问题就是,如果它本身是美国科学院院刊,你只要是院士,哪怕你在上面夸师母,一样可以发表(有没有想到冰川冻土哈哈?),这就是院士特权,特征之一就是写的contribute。
包括当年venter写的用基因算长相被science 拒掉的时候,他也动用了这个权利把文章丢到了pnas上,然后那个science评委(当然也是大牛Yaniv Erlich)还很愤怒的和venter两人大战300回合(当然结果就是每人都发了一堆文章~毕竟大牛打架都是要用论文的哈哈哈)
事实上,关于这篇文章,砖头早就飞了。比如Andrew Rambaut,进化领域的超级巨佬就指出文章有严重错误。
微博上一些相关领域人士的评价
polyhedron,复旦的严实博士,做分子人类学的。
fengfeixue0219,中科院的郗旺 ,也就是飞雪之灵,做植物分子遗传的
————正文部分————
首先,当我看到这篇论文的时候,第一时间就意识到,这又充值了。
因为当时一看作者,4个作者,3个foster,这就是一家子发论文,就有一种不祥的预感,这可能是水文。
而且还真的不是我随便说的,1和4是亲兄弟哦,据说2是1的老婆~真是foster承包了
好吧,唯一例外的是第三个,但是更是让我惊呆了,因为这个人是整个论文的主要推动者
一看到contributed,我瞬间就明白了,这群院士又开始水了,这个院士是做啥的呢?答案是考古学
研究欧洲史前内容,比如希腊基克拉迪群岛的史前历史,基克拉迪文化与东南欧和西南欧的关系,埃及和美索不达米亚的早期文明传播等等,当然后期对分子人类学感兴趣。
特别说明:我对colin Renfrew是没有意见的,人家是考古学的顶级专家,能够当院士,肯定是实力超群
PNAS是美国科学院院刊,他的文章有两种,一种是认真submit的文章,一种就是contribute,后者的文章,就是哪怕你去写一篇夸师娘,只要你是院士,也可以发表出来。所以pnas影响因子不高,备受诟病,很大一部分是因为这些院士去contribute了,院士们有优先发表且不受限制的权利。
特别说明:并非所有的contribute都是水文,但是在pnas里,contribute水文比例的确很高。
好吧, 不管怎么说,虽然心里预期自己又要看一篇渣文了,但是还是咬着牙看下去,万一有惊喜呢。
结果从头看到尾,最后证明,我还是想多了,真的没惊喜。
全文核心就是这张图(是的,其他图是附件的图)
给大家瞅一眼全文,3页
就是大家熟悉的进化树,长的表示进化距离远,短的表示进化距离近。
仔细一看,这图早就看了很多次了,就比如大家熟悉的这张图。
本质上都一样。
很古老的祖宗bat,然后就是武汉的病毒。然后继续分为ABC。A是从武汉回去的美国人,B是武汉型,C是欧洲型。
这东西老早就知道了,为啥他们还是重复一遍呢?
我就去看了下数据来源
we here present a phylogenetic network of 160 largely complete SARS-Cov-2 genomes
160?怪哉,都是来自GISAID database,的确少了,咋还是160个数据呢?为啥不多点?
注:文章写的时候是4 March 2020,投稿是March 17, 2020,发出来是昨天,但是那个时候其实gisaid数据已经不少了。作者也说了,3月4号的时候都已经有254 coronavirus genomes了。
不过reviewer真的是太好了,我最近就碰到了一个认(bian)真(tai)审稿人,让我用他的建议重新计算了一次三代基因组,然后一个小修折腾了3个月了(中间不断让变动十几次了)
我还专门登入gisaid去看了,你瞅瞅人家的数据,这么多点点呢。
或者看看这图
或者这种
既然发文章,能真的加点数据吗?尤其是送审都3月17了,发出来是4月份,中间的新数据哗啦啦的,补充点数据很有必要的。
当然,文章中还是有些内容的。
比如南美洲的巴西病毒是属于C的,从意大利传过去的(废话,人家报道的就是去意大利旅行了)我之前还写过文章呢
比如加拿大的安大略的那一例,是有武汉/广东旅行史,分类也自然属于这一支了。
墨西哥倒是例外,他的病毒是B家族的,而且和意大利/德国比较近
这个人去过意大利,其实也说明了,意大利这地方,早就是各种感染混杂了。
这张图倒是说明了一点,就是基因组信息和采样信息很对应,说明这些日子,这些病毒还是比较单纯,输入了,大家就检测到了,所以时间和基因组信息对的上。
到此为止,全文结束。
基本上就是老瓶子老酒,要不是院士contribute,这文章很难发到PNAS。
当然,文章最大的新意是:使用了character-based phylogenetic networks,这是分子人类学里常用的办法,搁到病毒里去用了。
———后续———
一篇文章水不水,其实读者是能够感受到的,比如这篇文章的确是有点水了,那大家一定会问,那你举个不水的,其实就有啊,比如NSR那篇把病毒分为L型和S型的,明显质量要高出一大截。
当然,我还是要说:水文,那也是有价值的!
最后,谢谢几位邀请。
4/11:解释一下:评论区的诸位大哥冤枉我了,我的意思不是不去打嘴仗不去占领舆论阵地,而是不赞成用这篇论文去当论据。为什么?其他答主也说得很清楚了,第一结论很含糊,第二样本数太少。这是什么样的一种论据?随时会砸到自己脚的论据啊。。。
-----------------------------------------
不赞成现在拿这个和美国人去打嘴仗。我们不要急于把这事政治化,那就跟美国人一样low了。你如何知道这个不是一个饵?万一你吞了这个饵,英国人又反转怎么办?
我们既然已经把尊重科学的大旗竖了起来,就千万不要轻易去推翻它。让研究再进行一会儿。。。
现在我们优势已经足够大,不管你说什么,我病毒控制住了总是事实,只有我能力支援世界也是事实,以堂堂正正之师,行堂堂正正之事,何必去滚泥巴?
很有趣的一篇文章。
我愿意称这篇文章是一个典型的“古生物演化文章”,作者列表里面也有考古和古人类学者Colin Renfrew。演化树的研究结果,展现形式和讨论方法,把covid-19换成暴龙类,尼安德特人什么都没有多大问题。这种方法从基础理论的层面是,是离散特征的祖先状态恢复,我们经常讨论的现代人起源几次出非洲,恐龙起源啊都是这类问题。感兴趣的可以看一我的这篇专栏文章(里面梗有点多)。
我不清楚的是这种工作真正在病毒学研究当中是否是流行的方法,或者说是被广泛承认的方法。
质疑的也很多,比如有人提到:这个工作相当于强行把covid-19的演化树的树根,拉到了蝙蝠里面那个“已知最接近的”冠状病毒这个位置。问题在于蝙蝠的病毒只是其他研究提到的“已知最接近”的,蝙蝠和人类之间有无中间型,如果有的话,跟covid-19的树根的位置距离如何?如果我们新发现一个所谓中间宿主的冠状病毒,比蝙蝠的更接近covid-19,用作这棵演化树的外类群,结果会不会有巨变呢?不好说。
这篇工作提到的一个有趣的点,我觉得是很值得赞赏的,“奠基者”效应。奠基者效应是加速族群遗传漂变作用的一种形式,指由带有亲代群体中部分等位基因的少数个体重新建立新的群体,这个群体后来的数量虽然会增加,但因未与其他生物群体交配繁殖,彼此之间基因的差异性甚小(来自wiki)。作者认为武汉的情况是,b型covid-19在武汉存在一个奠基者效应。值得一提的是,奠基者效应一般发生在封闭环境,比如小岛,山区。而封城,可能也算。
这里这个问题,可以更好的理解为,covid-19演化树就像一棵实体的树,我们分为根、茎、叶三个部分。根很纤细,草蛇灰线地埋藏在土壤里面,很难观察得到。而茎首先的暴露在空气当中,有了足够的空间和养分,成长的非常的粗壮,以至于被当作了“root 根源”,实际上是连接着“root根源”。而叶更为繁盛,更为多样。如果这个情况为真,武汉实际上是茎,之前因为根搞不清楚,所以就把茎当中根了。
但同样的,这个图这样来看质疑者的观点也是有道理的,根太长了。根的位置稍微动一下,比如说更靠近类型B一些,这个结果可能完全不一样了。
这样重要的结果,如果最后发的是PNAS的话,一定程度上意味着学界对这个结果应该是意见有很大差异的。其他回答者也提到,爱丁堡大学有演化生物学学者也在质疑这篇文章的审稿流程等过程,是否合理。
唉~毕业了,回不去了~