大数据首次揭示中国人基因特征，具有怎样的意义？第1页

huangshujia 网友的相关建议:

谢邀。

作为这个项目的核心成员之一，看到知乎朋友们谈及了这个项目的意义，我来回答一下。

对于意义，总的来说有如下几个：

1. 中国第一次真正意义上拥有了一个属于自己的大规模组学背景数据库

先说一下背景哈，我们来看一下下面这个图

发现了吧？如我图中红字“缺少中国身影”！要知道差不多二十年前，中国曾是“人类基因组计划”的6个参与国家之一，自那之后，测序技术发展快速，成本也不断下降。

其带来的一个结果就是，世界上一些有远见的发达国家和地区——主要是美国和英国——曾经人类基因组计划的两个重要参与国，就不断由政府、研究机构或者企业推出一系列基因组学“大手笔”项目（上图），这里面比较有名的有：美国All of US（计划测100万美国人群）、英国UK biobank（50基因芯片数据，这一部分的数据已经可以授权给全球的研究者）、英国10万人基因组计划（GenomicsEngland）等，其中GenomicsEngland截至9月份已经测完了8.7万人！今年国庆期间听说他们又把第二期启动了！是惊人的500万人，并且要在5年内完成！就连最近的韩国、新加坡、澳大利亚也已经在积极发起属于他们自己的基因组学计划。可以说，全球大规模的组学计划，正在随着测序成本的下降，逐渐成为一种新的常态。

而走的最快的英国和美国，他们的一些项目的成果我们已经看到了，其带来的好处不仅是推动了本国的基因组学研究和精准医学的发展，我觉得更重要的还在于它们逐渐树立起了强大的国际影响力和领域话语权。

中国是世界上第一大人口国和第二大经济体，也是曾经人类基因组计划的参与者之一，拥有着至少56个不同的民族，遗传资源丰富，想必也很独特，但一直以来，由我们主导的中国人基因组学研究成果却比较有限。

好在这两年来，这个情况正在发生改变，咱们国家也开始推动大人群项目了，包括：哈工大“中国十万人基因组计划”，当时我还对这个计划做了一点评价，感兴趣的小伙伴可以移步到《我如何看，今日央视宣布我国启动“中国10万人基因组计划”》、金力教授发起的泰州人群队列项目（这也是一个10万级别的人群队列项目）等。另外，也有远在牛津大学的陈铮鸣教授发起的CKB项目——含有约10万人的基因芯片数据，还有就是企业机构发起的大人群项目，这其中就包括我们华大。

但由于很多项目才刚开始不久，因此，直到今日被广泛使用并作为中国人代表的基因组数据集依然仅有“国际千人基因组计划”中的三百余个样本。

不得不说，在国家级人群基因组学研究以及该领域的影响力方面，我们略有落后。精准医学计划也搞了好几年了，但起色甚微，其中很重要的一个方面是缺少大规模的地区性人群遗传基线数据研究——这是精准医学和基因诊断的基础。当然，这方面的原因有很多，包括：大型项目的设计、大规模样本采集相当困难、测序成本也还不是真正的“白菜价”，一个上万人规模的基因组学项目依然需要不小的经费支持。再次拿英国的GenomicsEngland来举例子，他们在几年前定下要测10万人——截至2018年9月已经测了8.7万人（10月份就全部完成了），前期的项目投资就高达7,800万英镑，折合人民币是7个亿！而它国庆期间宣布的二期项目更是一个500万人的组学计划，这里的资金投入将是多高，可见其决心！！

面对国际这样的形式，按照正常的路径我们其实是很难在短时间内赶上的，如果要实现一定程度的弯道超车就需要另辟蹊径。

我们国家很幸运，你如果回过头来看，会惊讶地发现中国在基因技术的应用方面走得很快。特别是近年来，无创产前基因检测（NIPT）技术的发展和推广，其实已经让中国成为了地球上拥有最多可分析基因数据资源的国家之一。那些数据已经产生了，它并不需要你重新去测序！如果能够以这样的数据为突破口，完成大规模的组学研究，那么不但有赶上的机会，还有机会开拓一个新的组学大数据研究思路——因为这个数据和通常高深度测序数据极为不同——数据条件也很恶劣，唯一的好处是数据已经存在了。

截至2018年，全球的NIPT测序数据估计已经超过了1200万例，其中大约70%的检测数据发生于我国。由于没有找到官方的报道，所以这个数字是我根据去年的情况推算的。

我们这篇文章中所完成的14万人组学项目正是源自于这样的一个数据，而且很巧的是这个数量大约为全国人口的万分之一，样本数据也广泛分布于全国各地（覆盖中国31个省级行政单位和36个少数民族）——如下图，再加上NIPT检测的样本来源的随机性是有保证的，所以不难看出这将会是一组很有代表性的中国人群体数据。

整个项目是在《人类遗传资源管理暂行办法》和生命伦理原则的规范下，以及充分重视知情同意和隐私保护的前提下所进行的。

我们整个项目做了一系列的研究工作，包括：群体遗传学、医学基因组学相关的全基因组关联分析和病毒谱等方面的分析。并且建立了第一个大规模的中国人基因频率数据库，它将是一个良好的背景代表，我们把它命名为CMDB：

这是目前登顶国际学术期刊的最大规模中国人基因频率数据库。在以后的很多研究和应用的过程中，我们可以不再只是依赖于白种人的数据库，而是可以用属于中国人自己的，这样会更加具有针对性。

下面这篇文章是不久前我编写的一个可以在命令行进行cmdb数据查询和注释的工具，应用这个数据库时可以参考:

2. 开辟了一个新的组学大数据研究思路

按照以前的方式——包括国外或者少有的国内大型组学项目，研究思路大多会偏向于人群队列形式的研究，而且是高深度的全基因组测序。这样的项目往往都需要经历较长的时间周期和巨额的经费支撑。但我们则是尝试去使用已有的大规模超低深度测序数据，虽然前期没有严格的队列设计，但好处是样本数据足够多，而且来源随机，特别是随机性这个特点真是一个好事！因为这样我们就有机会去构建一个能够代表普通中国人的基线数据了，而且项目刚开始时，经过一些必要的数学推算之后，我们就发现只要能够把这些数据整合起来，并在数据质控方面多加点功夫，依然有机会解决很多问题！

这里我也多补充一点，其实业内并非只有华大拥有这个量级的数据，但是有能力把这个数据的价值发挥出来，做出成果，我想有两点很重要：

第一是数学模型的严谨性和合理性，这个非常重要，因为目前常用的算法不能适用于这个数据，如果没意识到这一点，最终可能不会有收获；

第二是质控的精细程度，特别是这类先天条件不是很好的数据，如果不做好质控，也同样可能一无所获。

最后，很幸运，我们成为了领域内第一个开辟超低深度（<1x）测序数据+大人群进行组学大数据研究的团队。这是一个性价比很高的策略，而且这样类型的数据在以后的临床基因检测中会很常见。

不过需要指出的是，我完全没有排斥大人群队列项目的意思，这是两个不同的研究思路，所要回答的问题也是有差别的。虽然我们开辟了这一个新的思路，但是很多与复杂疾病有关（包括肿瘤和罕见病）的研究只有针对性的人群队列并进行严格的随访之后才能更好地完成。

这个策略虽然是一个好策略，但后面的研究者如果要采取与我们类似的思路，应该考虑切入与我们不同的点，以免影响最后的创新性和先发优势。当然如果是集中在医学基因组方面，由于研究的性状有所不同，那么应该不必担心这个。

可能有同学会问，既然我们这里已经证明了0.06x-0.1x的测序数据同样很好用，那是否意味着以后的大人群队列也只需测到这个深度就行呢？绝对不是，这一点我要再强调一下！如果你能够测得更深一些，那么一定要测深，结果一定会更好，这是我们在项目刚开始时最憧憬的情况。但应该要多深呢，很多时候要看研究目的，如果同样是构建普通的人群遗传队列，样本规模也足够大，比如十万级别，那么可以适当浅一些——我认为3x-4x是足够的，但如果是疾病队列，那么需要另外计算，而且建议尽量网高深度测。此外，假如能够采用双末端测序（Pair-End）也请一定使用。

3. 突破的超低深度全基因组数据分析的局限和挑战

如果大家看过文章应该知道，这个项目中每个样本的数据深度只有0.06x-0.1x，原本用于组学数据研究的很多方法和软件在这里就失效了，只能从头开发，于是最后我们构建出了一套新的方法论，专门用于解决大规模超低深度全基因组测序数据的一系列遗传学研究。这些方法和策略在类似的基因组学研究中都可以被用到。

4. 这个课题所获得的一系列成果包括群体变异数据、群体遗传学、GWAS和病毒谱，以及已被验证和尚未被验证的结果——很多都很有意思，填补了不少国内外的研究空白，相信对后续的研究也会有启示作用。

关于这一块的内容，其实我在10.10晚上专门写了一篇文章解详细读了我们的成果和有关于中国人的发现，如果大家对于这个文章的内容感兴趣那么可以到以下链接查看，会更加全面：

5. 第一次拥有充分的本土数据自主权利

这应该是最具战略意义的一条。按照之前的惯例，几乎所有的基因组学文章在发表之前，都需要把研究中所用的基因数据上传至海外的NCBI、EBI或者DDBJ组学数据库。这个做法源自于人类基因组计划传承下来的“共有、共为、共享”原则，这个原则也确实大大促进了整个现代基因组学的发展。

只是由于拥有组学数据备份和共享功能的数据库只有上述那3大家！所以全球包括咱们中国在内的国家，在以前这些组学数据只能传输到那里进行备份，同时供全球的科学家验证和二次研究。但是，这一次这个数据量大且重要，我们不打算这么做了，当我们的文章被《Cell》接收之后，直接和Cell的编辑进行了沟通，向他们反馈说鉴于中国的《人类遗传资源管理暂行办法》，我们不能把数据传输至海外数据库了，同时我们已经有了深圳国家基因库，这些数据只能放在这里。当然这个沟通并不容易，因为这是打破以前数据需要传到海外3大数据库这个做法的，文章也可能因此而被拒接，不过最后《Cell》同意了。

我们开了这个先例，就意味着，国际顶级学术杂志也开始认可数据在深圳国家基因本地化备份的情况。其实只要有第一次，就可以有第二次，直到最后成为和NCBI、EBI以及DDBJ一样的常态——甚至最后代替DDBJ成为全球三大基因组学数据库之一，也不是不可能的。

关于这个数据保护的情况，再多补充一段：下面这个是2018年11月15号，另一个国际顶级学术期刊《Nature》上刊登的一个新闻评论：https://www.nature.com/articles/d41586-018-07222-2，它直接批评了我们这篇Cell文章不共享数据是一个“坏”头，直接说这是有违科学共享原则的“一个很坏的案例”——相信很多科研同行也会有同感，但依据国家人遗我们不得不如此。国内媒体和大众竟然还不断谣传我们在外传数据（连崔永元也在传），并说这是卖国行为，支援外国人开发基因武器，你也可以见到评论区同样有这样的质疑，真是无知的可笑，而且还是睁眼瞎，对此还抱有疑问的人可以回头去看看Nature的那篇文章。

6. 从传统单个或者少量样本的检测到基因大数据研究的跨越。

如果说的更加文绉绉的样子，那就是很好地起了一个头，验证了基于大人群的精准医学研究将成为新的科研模式，并且至少我们的第一步也证明了这个模式。

P.S

最后，吐个槽，对于很多媒体来说起“南方人免疫力更强”或者“双胞胎基因”这一类的标题确实更容易传播。但其实如果真的读过我们这一篇文章的原文，你会觉得并不能理解得这么简单。免疫功能本身是一个复杂的系统，在某些方面，可能由于自然环境的原因，南方人会更有优势一些，但直接定义为更强并不严谨也不合适，而应该指明在某些方面更有优势，比如对抗疟疾和一些病原微生物方面。

P.P.S

看到不少网友发现我们竟然可以在2年的时间里完成14万人量级的研究，很好奇是怎么做到的。其实没有诀窍，只是少走了弯路。在开始这个项目之前，我和 @刘斯洋已经做过了丹麦人国家基因组项目等很多基因组学研究，也都分别在博士期间发过CNS级别的文章（我发过《Nature biotechnology》，刘斯洋是《Nature》）。在丹麦人的项目中她还连续发了三篇（一篇在Nature、一篇在Nature communication和一篇方法学的发在GigaScience），我们两都有9年的完整组学科研经历， @刘斯洋是毕业于哥本哈根大学的生物信息博士，金鑫更是在本科和博士阶段就包揽了《Cell》《Nature》和《Science》，目前是华南理工大学最年轻的正教授，小组里的核心成员都是9-10年以上的科研经历，我们也算是国内最早接触NGS技术的那一拨研究者。请问这样的团队自己还不能自己做出事情，还质疑我们，搞笑吗？！！

所以，尽管之前我们接触的都是高深度组学数据，但对于如何解决这样数据的难题，依然有经验可寻——而且我们也擅长统计学算法。所以在一开始的时候对于如何解决这个数据的难题刘斯洋和我就已经想得比较清楚了，知道应该用什么数学模型来构建算法，才可能在最大程度上解决这个数据的分析，这在很大程度上缩短了一系列的摸索时间，我们自己内心也会有底。

另一个就是我们小组很努力。这一点我不是在此说说而已，从2016年3月开始到2017年末就没停过，而且华大各部门之间的配合非常给力，包括我们如何快速进行实验验证，执行速度也是杠杠的。我们也知道业内已经有类似的项目早于我们启动了，虽然还不知道其他人的进展如何，但这种未知也是一种压力和动力，因为这等于是在说留给我们的时间并不多——科学只认第一不认第二，一旦落后心血也就白费了。所以后续的分析也基本是在急行军，并没有什么休息天不休息天的，只想快点做出来，一旦想/找到一个能够解决问题的方法，立刻就上。最后到2017年12月的时候就基本完成了，后面就是成果的投稿。

再说一句，要能够拥有这样的效率，就要求你必须完全知道要做什么以及应该怎么做。所有的这些思路就在我们自己的脑子里，不然你很难有这个速度。网上还要质疑外国学者接触数据参与分析，这真是替我们操碎了心，有必要吗？！这个速度必然是脑子想到，手上就要做到的速度，实际进行过这类组学研究的研究者应该多少能够体会到，哪里还有时间和外国学者分析流转（我甚至敢说，任何一个团队如果是这样做的，就一定没有我们的速度）！所谓顾问就是顾问，能够在会议上对我们的成果与方法做出评论和建议，对我们来说就已经足够了。

晒一下课题组研究团队核心成员的合影：

还有一张课题组主要生信团队的合影：

做完这个项目之后，其实我们自己也发掘到了更多有意思的问题，只是限于数据的种类，我们自己也暂时没办法很快对其进行验证，这是接下来要解决的地方。

以上。

bishop87763 网友的相关建议:

谢邀，

基本上所有高复杂性的问题，比如说天气预报、地球洋流、股票预测、大型生态系统演化、癌症、狂犬病等等。

具体一点的，湍流、堆积固体颗粒的流动计算。

大数据首次揭示中国人基因特征，具有怎样的意义？的其他答案点击这里

大数据首次揭示中国人基因特征，具有怎样的意义？第1页

1. 中国第一次真正意义上拥有了一个属于自己的大规模组学背景数据库

2. 开辟了一个新的组学大数据研究思路

3. 突破的超低深度全基因组数据分析的局限和挑战

4. 这个课题所获得的一系列成果包括群体变异数据、群体遗传学、GWAS和病毒谱，以及已被验证和尚未被验证的结果——很多都很有意思，填补了不少国内外的研究空白，相信对后续的研究也会有启示作用。

5. 第一次拥有充分的本土数据自主权利

6. 从传统单个或者少量样本的检测到基因大数据研究的跨越。

P.S

P.P.S

相关话题

前一个讨论

下一个讨论

相关的话题

大数据首次揭示中国人基因特征，具有怎样的意义？ 第1页

1. 中国第一次真正意义上拥有了一个属于自己的大规模组学背景数据库

2. 开辟了一个新的组学大数据研究思路

3. 突破的超低深度全基因组数据分析的局限和挑战

4. 这个课题所获得的一系列成果包括群体变异数据、群体遗传学、GWAS和病毒谱，以及已被验证和尚未被验证的结果——很多都很有意思，填补了不少国内外的研究空白，相信对后续的研究也会有启示作用。

5. 第一次拥有充分的本土数据自主权利

6. 从传统单个或者少量样本的检测到基因大数据研究的跨越。

P.S

P.P.S

相关话题

前一个讨论

下一个讨论

相关的话题

大数据首次揭示中国人基因特征，具有怎样的意义？第1页