生化环材的研究可重复性的问题很严重,可不是我一个人说的,很多人都曾呼吁过要重视可重复性问题,如果情况只是零零星星,何必大费周章发这么多文章:
事到如今,如果还不重视可重复性问题,对学科的长远发展必然是有害的,慢慢的劣币驱逐良币,只会越来越一泡污。
有人说其他学科就没有可重复性问题吗?当然有,但你不能总比烂吧,能不能见贤思齐,看看计算机。我也不是吹计算机,但计算机论文不少都会开源实验代码,并且提供最容易的复现demo,这样最利于论文的传播和被认可。至少这是非常良性的努力。
总体来说,生化环材可重复性差有多种原因造成,我按下面的结构来阐述:
不少实验结果都是一个巧合得到的,可能溶液里不小心混入了杂质,某批次溶剂过期了变质了,某个设备控制的温度不正常,气压不正常,然而突然就产生了某些结果,拿到结果作者兴冲冲的就发表了论文,但之后设备和环境变了,就再也复现不出来了。我师兄说,他用我们实验室的MOCVD就从来没用同一组参数,做出过两次一样的结果。为啥呢?因为设备太老了啊,密封不严,时不时就混入写乱七八糟的气体进去,但也正因为如此,实验室经常能长出很多神奇的样品,然后师兄就拿着这些神奇的样品去做表征,讲个好故事,一样发paper。
2. 有意为之
有意为之里又可以分造假和非造假。
2.1 造假
造假就很简单了,没做实验或者没有好结果,但迫于考核压力或者追逐名利。如双鸭山大学中山大学 李XX 教授 冯XX、 叶XX等的研究论文,通过数据的平移、缩放、删除来做科研。但这种手法太粗糙了,天网恢恢疏而不漏,注意噪音,一模一样,还是露出了马脚。
2.2 非造假
2.2.1 隐瞒关键工艺
有些论文做出来是真的,但作者考虑到可能有经济利益,故意隐瞒关键工艺参数。材料就是炒菜学,添加顺序不同很多时候结果就不同。如:A组分是分两次添加的,但就写用了A多少克,你如果不知道,当做一次添加,做多少次也做不出来。或者某些设备的减压过程参数,退火的过程参数,都是秘密,但作者在文章里可能提都不提。纳米银线就这个样子,夏X南和他学生隐藏了如何减少制备过程中颗粒的关键方式,导致只有他参股的公司可以做出高质量的纳米银线。藏着掖着赚大钱,美滋滋~
2.2.2 特殊的文章技巧
这里就介绍一个cherry pick,顾名思义,专挑好看的樱桃。专门从实验数据中挑选有利于自己结论的数据,保证画出来的曲线好看,但很可能这个数据就是一个离群值。属于一个灰色地带。
3. 总结
这些猫腻没有办法从根源上清除,因为里面说不清楚的东西太多。就算你follow一篇文章重复不出来,你也没办法指责人家就是造假。一方面,可能是设备不同,底物不同,溶液不同,参数不同,甚至手法不同造成的。另外一方面取证极为困难,更别说人家还有100种托词可以用来甩锅。而且在中国,假造的风险是很低的,但收益很大。你看韩春雨当年动静闹的多大,现在还不是美滋滋当着教授,根本没拿他怎么样。当年上海交大的陈进汉芯造假也是,低劣到用砂纸磨去原有的logo,换成自己的logo,足够令人发指了吧,陈进还不是没得到啥惩罚。
所以用开头的话总结,生化环材里实验可重复性差是普遍现象了,里面有多少猫腻大家心知肚明。
不认同。
文章作者想说什么我大概猜得到,但是逻辑错了。已发表的结果重复实验重复不出来也许有一些客观原因,但是重点是重复不出来以后如何面对。
作为一个搞科研的人,甚至不光是科学家,仅仅一个有科学精神的人。确实重复不出来实验就应该坦然否定之前的结论,该撤稿撤稿,该申明申明。这叫实事求是。
如果说生命科学有什么特别的,就是生物学实验不确定影响因素可能多一些,重复性不好的文章更常见,甚至可以说数量不小。这里面有些是造假,有些可能是忽略了没有考虑到的因素和干扰,重复次数还不够多,做了错误结论。其实我脑子里第一个想到的是天文学著名的perytons信号,一个被研究了17年发了不少文章的“宇宙信号”最终被证明是实验室的微波炉发出的。
同时全世界范围内都有一种倾向,就是认为撤稿就暗示了作者不诚实。造成一些学者忌讳撤稿,害怕认错。这种重复性不好等同于造假的舆论可能确实让一些人对撤稿讳莫如深。
但只能说这种疑罪从有和忌讳撤稿都是不合理的,是一种恶性循环。不能用重复性不好的客观原因来给死扛的做法提供合理性。
其实存心造假是很难查的,就算原始数据都在,如果直接从样本上造假,很难区分蓄意造假和实验失误。能被抓到的实锤造假都是夸张到直接复制粘贴那种。比如我曾经读过一篇IF6分+的文章,国内某高校发的。从示意图就画错了,再一看SupInfo里给的序列也是错的,不可能能做出来那种错。一直到这里我还很善良地判断可能就是写文章不认真吧(虽然写文章笔误很少有设计性错误),直到我们上手重复了一下关键实验,发现完全没有现象,我才开始怀疑他们数据是怎么来的。
学者遇到自己实验重复性不好时,我认为自证清白的最好做法就是公开透明地重复实验,如果不行就不要犹豫大方撤稿,最好再把自己纠正的实验结果和结论也发表出来。这才是正确的做法。
如果明明不可靠不严谨的结论甚至已经被其它实验证明不对的东西,还要搬出实验体系不同、有待未来证实之类的玄学逻辑强行死扛,那早日转行当中医粉岂不美哉。
最后,饶毅裴钢的事儿其实解决起来很简单,有能力验证跨膜蛋白功能的实验室不只那么几家,只要有人去重复一下,把结果发表出来就完事儿了。比大家举报信、公众号、科学网博客写来写去都靠谱。
我读硕士研究生的时候,遇到过一个问题,就是做Western的时候,一批实验总是做出不同的趋势来。
我当时研究一个基因对炎症的调控作用,我拿siRNA干扰这个基因的表达,然后检测炎症因子和炎症信号的激活。有意思的是,我这次做出来发现降低了,下一次可能就升高了,再做发现又没变。
那到底是什么?
我当时的课题指导老师说,重复。
于是我继续做,直到我做到三次独立的实验中,终于做出来了一样的结果的时候,我很高兴的拿着数据去找她,说那我用这个数据开题了。
她说,不够,再重复。
如何重复?换实验室的技术员,按照我的实验条件和参数,重复。
当实验室的技术员做出来跟我一致的数据的时候,我才将这个结果放进了我开题报告的预实验结果里。
这是我刚硕士入学的时候,接受的最基本的科研理念——
你的结果,不应该是一个偶然实验中得到的偶然结果,而应该是可以不断被重复出来的客观现象。
再说一个故事。
我写毕业论文的时候,我的课题有一部分内容很有创新性。具体是我发现了一个信号通路对某个分子的独特调控作用,从没被报道过。
我十分想把这个结果放在我的论文中,但唯一的缺陷是,这个信号通路的第一个信号分子,趋势不明确,就是我做出来4次试验,两次对,两次不对。
但是后续下游信号的所有变化,都支持那两次对的结果。
写的时候我放了,然后被我的课题导师全部删除。
她说,这不是确实的结果。既然还有问题,就不能放在论文里。因为一个论文提交然后被收入图书馆,这个理论就会被永远记录。一个有问题的理论,不应如此。
最后我没来得及验证清楚那个问题,论文就提交了。
我遗憾我的论文的闪光点没有了,删除掉那个的部分,我的论文十分平庸。
但后来我小导这么说的,
“你是一个享受科研的人,你也很聪明。我希望你走上科研这条路的时候,每一步都坚定而踏实。你写下的每一个字,都会跟随你一辈子。所以你写的每一字,都应该经得起时间的推敲与拷问。”
听完这一番话,我最终完成了论文的致谢。
我是一个科研新手,但我觉得有些东西,过多少年,都不应该变。
最后,贴上当时写的致谢,算是提醒自己,也分享给大家。
不用重复+图片误用,你这是写论文还是写网文?研究的是科学还是神学?
处长干脆直接说中国的生命科学研究就是骗钱不就得了?
不懂就问,根据侯处长的理论,生命科学和玄学有什么区别?别人都重复不来,甚至作者自己也重复不来,难道是要看做实验的人是否足够虔诚,只有对裴院士足够虔诚才能做出文章中的实验结果?
既然裴院士1999年的paper不能被第三方重复实验结果,那么这个研究的学术价值是什么?难道是检测对裴院士的尊敬程度吗?
说实话这不是我的专业,但自然科学是要可证伪的,那么这个“不可靠”是几个意思?
科学是从归纳发展起来的,那么这个重复实验不可靠又是几个意思?
既不能重复,又不可靠,你这是神学吧,还能好意思争论专业和科学性吗?
可笑。
好家伙,中医现在都不敢这么明目张胆了。李森科当年也没有如此豪橫。
有的东西大家心里都有数,但你不能公开来说,尤其不能实名公开说。
我要是知乎实名,我也不说。
比如高赞说的WB。
我们100个人,每人做100遍,把一万张图都拿回来,排除掉离群值做灰度分析,数据真不真?
一样白搭。
你要我把明显阴性做成阳性是不太可能的,但没有趋势做成有统计学意义,基本上是没问题的。
实验不能重复真是太常见了。
甚至我们自己有时候做实验也会发现自相矛盾,最后强行找个理论圆回来。
有时候这个理论是能解释的通的,有时候就怀疑之前数据是不是做错了。
某人曾外包某生物公司,声誉不错的那种,WB跑了一个月,说一个180+大蛋白不表达。
跑来问我们,我听着一阵懵逼,我们实验室一直都能跑出来啊?难道是所有学生都在造假?
当场出了一身冷汗,自己去重复了一遍,跑出来了。
出来了就放心了,不管了。
但我只重复了一遍啊?一遍!你能说这一遍就是对的?
也许我们整个实验室都错了,别人生物公司才是对的呢?还是说人家公司没找好条件?
谁知道呢?
正因为有这种不知道,大家对某些实验重复性不佳,是比较宽容的。
比如生物公司肯定没造假的动机,你外包了这个公司,按照实验结果说“XX蛋白不存在于XX细胞中”,这算不算你学术不端呢?
我自己也有过某个蛋白死活跑不出来,换批细胞不出来,换人不出来,换试剂不出来,换实验室还是不出来的情况。
但这TM是个骨架蛋白,要是不表达,我可能要拿诺贝尔奖了。
最后还好,我用共聚焦显微镜拍出来了,放弃WB——跑不出来的原因至今不明。
如果我直接把WB结果发出来了,算不算我学术不端呢?
不能这么算吧?
就算你的实验没能重复,也不代表你造假了吧?可能是各种各样的原因导致的呢?
不得不宽容啊。
但是宽容的结果,就是一定程度上降低了严谨性的要求,就一定有人追求“尽可能的不严谨”。
比如同样一个结果,你重复10次,我只做3次,我就节省了70%的时间。
你这边实验刚开始,我已经小修了。
最后咱俩结果一样,你数据还没做完,我已经见刊,你发了1篇,我发了5篇。
你还天天肝到12点,我天天浪,最后你学妹也被我泡走了。
几年后我上位,你来做博后,我天天喷你出结果慢,你博后待遇全拿不到,出站手里空空当千老。
你也只好重复3次了。
大家普遍不严谨,实验重复性更差,就意味着有人更出格,直接筛数据。
我想要什么数据就拿什么数据,实验做5遍,挑个好看的当结果——不只是国内,国外也如此。
再然后就是彻底造假了。
这条路是一个内卷之路。
你重复10次,我就重复9次,他重复5次,最后变成做出一次理想数据即可。
既然老子的数据很可能不能重复,那老子一遍遍在那里找离群值干什么?
老子直接一步到位,造个离群值不就完了?
高赞做瞬转,人家直接跑沉默的基因,跑完以后说是ABCDEF蛋白。
甚至有人沉默的就是actin/tubulin,甚至有人根本就没沉默,lipo多贵啊。
WB?老子上样量直接给你调一调,你要什么数据快点说,我赶时间。
一条信号通路三天就跑完,正反两版胶,全TM在跑内参。
不能说,真的不能说,内卷已经卷到这里了,你能重复个两三次已经是绝对的良心科研员了。
国内我辗转去过几个实验室,国外也有短暂参观学习过,像高赞那样每个实验摸条件,摸完以后做出稳定可重复的结果,再重复三遍,换个人再重复三遍的严谨性,没一个课题组能达到。
从转染到提蛋白,然后一批样跑一圈WB,四五天过去了。
比如高赞有个蛋白就是有2次结果不对,整版胶都重来,跑了4次2:2打成平手,那就再跑4次,什么时候能确定结果了,什么时候再用。
恐怕一个WB能卡你几周。
摸摸条件,重复三遍实验,再加上有时候结果不理想,一个月都不够你造的。
两个人花一个月就做这点数据,老板一定觉得你们都在摸鱼。
老板说严谨是好事啊,但你数据得出啊,你得毕业啊,你007去吧,你要严谨就多干点活呗。
这是一条已经内卷到顶点的路子,从996+0.5,到教职门槛上天待遇凄凉,再到为了论文凑数据,最后是一切都靠编。
科研本来应该是个快乐的事情,是“我想到一个好主意,但不知道靠不靠谱,所以我就试试”的开心事。
但目前已经和这个方向差得远了。
就像学知识本来是开心的,但没哪个人觉得高三好开心一样。
我记得我小时候看关于尼斯湖水怪的故事,好奇得不得了。
长大后到处搜索相关内容,既不是为了钞票,也不是为了考试,纯粹是满足本能的求知欲。
这才应该是做科研的精神。
-----------------------------------------分割线====================
更一个关于尼斯湖水怪的视频。
抖音科学旅行号,jianzhang001,科普尼斯湖水怪。
有时候想一想,尼斯湖水怪其实也只是个营销内容,是一个炒出来的概念,是一个牟利的工具,是不是也和申基金时候的“成果”是一个性质的东西呢?
认同认同。。
从此,生命科学,不再是一门科学。。
╮(╯_╰)╭
建议深度发掘进行科学哲学辩经