我靠还真有人认真回复。这个预印本摆明了就是侮辱智商嘛,应该等几天看哪家杂志会发才对。
这个论证是什么样的呢?比如我看见人类跳高世界纪录2000年是2.4米,1970年是2.3米,于是我得出结论1280年人类的跳高纪录是0米,根本不会跳。——前面是个线性模型,这篇论文用的模型更复杂些,但本质是一样的。
几个非常明显的业余人士就看出的问题:
1.模型能用吗?——不能用,马里兰可以拟合到2019年秋季,罗德岛可以拟合到夏季,但在世界其它地方拟合一下或许可以把新冠出现时间拟合到上个世纪去。
2.数据可靠吗?——不可靠,由于刚刚爆发,缺乏规范,美国初期新冠数据,病例数和阳性率,都是非常混乱的,更何况是州郡数据。论文里数据压根没处理,全一股脑儿塞进去了。
3.可以混用吗?——武汉的数据弄出来的模型用到其它国家。不能,武汉数据本身也不准确,何况其它国家是输入的,爆发的模式都不一样。
类似文章这两年在国内媒体上出现了已经太多太多,但试图把政治塞进学术界似乎是首次,这样投机成不成?看结果吧。
PS:该论文造假是有意的。比如从方法介绍来看,拟合应该用病例数,咱不提方法多么荒唐。结果后头拟合用了阳性率。估计是用病例数没能拟合出想要的结果。
PS2:简单查了下拟合线,论文里拟合线的数据也不对,也是造假的。而且线和点完全匹配不上的图,就那么大大咧咧的挂在上面。真的是有恃无恐了。
看了论文,可以说毫无科学依据,是对别人智商的直接侮辱。
是对“大数据”的侮辱,对“最小二乘”的侮辱,对“核密度估计”的侮辱。
希望如果新闻编辑是理科生的话,就别广泛报道了,真的不想看到这个东西被吹捧……
多说一句,大家都知道病毒爆发的时候,感染人数曲线是随时间指数增长的。但是只有这几个中科大的教授和博士生们敏锐地发现,原来可以研究这个函数,当函数值等于1的时候,就是首例感染者发病时间!
我只能说太牛了,太牛了,太牛了,太牛了,这个是一作的链接:
同时这篇论文也是受到了国家自然基金的资助,说通俗点就是花了纳税人的钱的,你们去NSF举报的话我也会很支持。
史书中没有记载古人患癌症,不是因为古人不患癌症,而是因为古人没有相应的认识。简而言之,不知道/不检测就等于没有。
1918大流感源于美国,甚至“零号病人”都不是在西班牙,只是因为中立国西班牙把疫情报道出来了,最终被冠以西班牙大流感。
某些洗地说为啥欧洲加拿大没率先爆发新冠,其实跟古人不患癌症一个道理。他们是在中国报道后才开始检测新冠的,自然不会在中国之前爆发。
所以美国在疫情之初进行了充分的检测吗?美国做到了应测尽测了吗?美国报道的病例数能真实反应出当时的患者数吗?TW防疫南波湾,日本防疫优秀生,不都是奉行不检测就等于没有的政策嘛。本身数据不准确,拟合出来的时间自然不合理了。
要验证新冠是不是在19年11月份之前就在美国流行了,可以检测19年11月份之前留存的生物样本,检测核算或者抗体。而之前刚好有相关的报道。
我国的血清调查发现武汉地区的社区人群新冠抗体阳性率4.43%,湖北武汉外市州抗体阳性率0.44%,而湖北之外六省份的1.2万余人中仅检测到2例抗体阳性。
美国的血清调查:通过对从2019年12月13日至2020年1月17日在美国9个州收集的血清学分析发现,对总计7389个样本进行分析,发现其中有106个样本的IgG反应为阳性。对其中的90个样本进行进一步分析发现,84个样本具有新冠病毒的中和性,其中1个样本具备S1蛋白的结合活性,并且有样本具备受体结合域RBD的阻断能力。同时对这90个样本分析发现,有39例同时具有S蛋白的性IgG和IgM(43.3%),有8例IgM呈阳性,但IgG呈阴性,有29例呈IgG呈阳性,但IgM呈阴性。(若按照106阳性计算是1.43%阳性率,若按双抗体阳性计算为0.53%阳性率)
如何看待美疾控中心称早在 2019 年 12 月中旬新冠病毒就已出现在美国,比中国正式发现提前数周?
也就是说美国在2020年1月17日之前的病毒感染水平就已经超过了湖北除武汉以外的市州了,这时候武汉还没封城呢!
所以我很想问各位“专业人士”如何解释这个现象呢?
柳叶刀使用此数学模型分析中国武汉的病毒。(√)
中国科学院科技论文使用此数学模型分析美国的病毒。(×)
这就是把掌握舆论权的可怕吗?
至于热评那些说用不科学的数学模型会损坏话语权的“支持对美国进行的溯源研究与舆论战”人士。
柳叶刀用的时候沉默,中国科学院用的时候全力质疑。
谁在主动损坏话语权你还不清楚?
真是那么“支持对美国进行的溯源研究与舆论战”难道不是标明一下这是柳叶刀用过的模型吗?
按我的想法这是逼柳叶刀在“科学”和“大是大非”面前二选一舆论手段。
怎么在这群“支持对美国进行的溯源研究与舆论战”的人士面前,这反而是用来让中国科学院在“科学”和“大是大非”面前二选一?
这就是“支持对美国进行的溯源研究与舆论战”的人士吗?
怕了怕了。
不管你怎么评价的,都请用相同标准评价一下20年柳叶刀用模型推测1月底感染8万的这篇:
Wu, Joseph T., Kathy Leung, and Gabriel M. Leung. "Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan, China: a modelling study." The Lancet 395.10225 (2020): 689-697.
我觉得这个不错啊。
用指数函数去反拟合其实没什么问题,在第一个峰前是指数函数,这是流行病的一个常识。哪怕现在的以色列等地数据,也非常符合“指数函数”的特征,这也是算R很重要的原因。欧美自己的政府,也把“把R控制在1以下”(虽然他们做起来似乎很有难度……)
这其实揭示的是两个点(严谨起见应该是三个):
1:如果美国公布的疫情数据是正确的,那么美国疫情大概率从2019年3月开始爆发。
2:如果美国疫情不是从2019年3月开始爆发的,那么美国在新冠早期的数字就是错的,而且错的很离谱,而且不能通过“检测的少”来搪塞过去(因为“检测的少”一般情况下只会等比例放缩数据,而不会R也直接差出几倍来),说明美国有制度性的瞒报漏报,故意不通报真实确诊数据,用错误数据误导全世界抗疫。
3:数学规律在美国无效。
无非就是1,2,3三选一。至于哪一个是正确的,这得看美国人的解释,不必帮美国人瞎解释了
至于那些说“参数少所以不科学”的,你们这个黑的就太不到点子上了,简直让我怀疑你们是友军……但凡学过一点最基础的机器学习……
Vapnik Chervonenkis定理(当代机器学习的理论基础)——参数越少的模型generalization能力越强,参数越多的模型越容易overfit。(其实这有现成例子,如JHU的抗疫能力排行,还有Bloomberg的排行,都是参数太多导致overfit的典范……)
至于说underfit的人……这有个眼睛就行啊……无语了。为了维护大是大非,已经到了需要自戳双目的地步了吗?
拜托黑的人稍微费点力气,挖掘一点尊重科学的黑点,可以吗?
俺是搞大数据的。这是大数据被黑得最惨的一次。
俺一直想做一个现实社会的A/B Test,实验设计如下:
假设一个人在美国测试新冠,且结果为阳性,此时记录下此人的身份信息,但将结果篡改为阴性并报告;
假设一个人在美国测试新冠,且结果为阳性,此时记录下此人的身份信息,结果依然按阳性报告;
一天追踪1000人,两组各500,连续追踪3个月,应该有90000人左右(刨除反复做新冠Test的干扰ID,要求ID唯一)
那么我期待的实验结果是:
Test Group死亡率要远远低于Control Group;
Test Group进ICU的人数远远小于Control Group;
Test Group后遗症也小于Control Group;
Test Group健康分数高于Control Group;
这样我可以得出设想的结论:
绝大多数新冠病人是被新冠吓病甚至吓死的。只要不告诉他们新冠阳性,甚至你让他们不知道新冠病毒存在,一切都会跟正常人一样。
对于自然界大部分的现象,我们一般都会说它大致符合一个分布,比如等公交车的过程就很像是泊松分布,投硬币就符合二项分布,很多没啥固定的可能正态分布是个过得去选择等。因此在对现实场景建模的时候,我们就可以假设这个现象应该大致符合这个分布,我只需要去得到一些相关参数,从而简化计算。
这篇文章做的是什么?就是假设新冠感染数量分布符合某种指数分布(这个假设本身问题不大),并通过拟合已经观测到的数据来得到这个假设分布的参数,并倒推给定现在的分布(和参数)第一例病人是什么时候出现的。作者通过对多个中美城市进行这样的分析,得到了一些结论:比如美国可能19年8-10月间就开始传染,以及中国是从19年12月才开始的等。
这个方法对吗?不能说是错,但也和正确没啥关系。这个就属于理性上你不会相信其中的结论,但我也不能张口就来就说它绝不可能。所以从科学上没啥可讨论的价值,别的方面看需求,但可以做的再细致些。
首先就是基于拟合和所谓的大数据(?)、人工智能(?),不去做划分训练(验证)测试集可还行?我打个比方,一个东西好不好需要验证,你不能直接拿出来说我这个好。这是第一个问题。
第二个问题就是各种环节的假设、模型选择、参数选择都很粗糙。这种基于拟合再倒推的(或者预测的),在数据量有限模型简单的时候,都有很大的可能差很远。如果不用作者文中给出的方法,让我用机器学习模型来拟合,且无需验证好坏的话,我能得到任意你需要我得到的结论,还比作者的方法误差小。基于这种没有验证没有对比,选择松散的模型得到的任意结论,都像疯子扬土。前一阵子我心血来潮用时间序列去拟合我自己的谷歌学术引用量(这还是跑了两年的数据,从很多个模型中选择而来),发现到2023年就会达到10万。你能信吗?
其他问题,比如图片是复制粘贴非矢量图,排版不专业就更不用说了。
因此我的看法是,如果这个报告作为本科的课程大作业,可以得60-70分。
我只能说一句——干得漂亮
这一招绝对够毒,美国两头不是人,进一步美国学术风纪败坏,退一步美国政府腐败透顶。
我给大家解释解释,这招数据和美国哈佛用武汉停车场分析中国数据如出一辙,用毫不相干的大数据反推。
这位问了,不就个数字游戏么,这也是个平手啊。
Naive,新冠传染也要按照基本法。总不至于你美国卫生条件堪比印度脏乱差,传染率那么快吧。没错,如果零号病人没那么早,你就解释解释你们腐败的政府是怎么瞒报的吧。
这个反对吧亡党,不反吧亡国。
很多人说这个不准。
那为什么测算中国的时候是准的?
何况欧美病例本来就出现得特别早。美国至今不对病例数字进行官方统计。这种严重的瞒报行为本来就可以作为间接证据的。
当所有的间接证据可以构成证据链条的时候,完全就不需要直接证据就可以定罪。