关于题主的问题,这里我觉得至少分为两种情况。
1,同一个位点,不同公司给出了不同的判定——某个公司测序质量有问题
大家知道DNA是由ATGC这四种碱基组成的,所以任何一个位置(业内叫位点),都会有ATGC四种可能性,但是,对于一个确定的位置,那么,它只有一种可能,要不是纯合的,要不是杂合的。
而无论是什么公司用什么手段进行检测,那么本质上都是测序。所以,测序的结果应该保持一致性。
同一个位点却出现了不同的结果,只能说明其中某家公司的测序仪出了重大事故才会产生这样的结果,这是要狗带的节奏啊。面对这种情况,靠谱的做法是找三家进行检测。当然,像我这种在实验室的情况,自己设计引物扩出来然后送出去做一代测序即可。
2,不同的位点,不同公司给出的结果有差异
这种又可以分为两种情况
A、不同公司在思路上存在差异
比如选择的参考人群不一样,数据库都会有差异,但是对于遗传模式比较简单的项目,这种情况比较少见。
而最常见的可能性是
B:基因检测分辨率的原因
基因检测分辨率是基因测序中最重要的概念之一,但是往往为大家说忽略。
比如我们看到基因检测的宣传的时候,往往关注的是这样子的内容:
各种信息对我们十分有吸引力,比如疾病风险性,比如健康管理,当然还有各种有意思的内容,比如音准,比如运动健身等等。
然而,外行看热闹,内行看门道。
作为基因研究相关人员,我看这些检测,首先要看他们的检测技术,因为检测技术决定了最终的结果,而大家看到的各种解读,不过是在检测结果上的解读而已,皮之不存毛将焉附?
那么,基因检测技术有哪些呢?
在这里做个简单地科普:
我上面提到,人的DNA是由ATGC这四种碱基构成,而这些碱基连在一起,形成了人类的基因。
比如下图就是人的基因某一部分的内容,就是ATGC不同组合形成的。
人的基因组,总共有30亿这样的碱基对(因为DNA是双链嘛,所以也可以说是60亿碱基,但是互补配对的)
而所谓的基因检测,就是我们要把这些ATGC的不同组合来读出来,因为这些信息蕴含着我们的所有遗传信息,决定这我们是否罹患某些疾病,决定着我们的身高长相,决定着我们的健康情况,甚至还会决定我们的性格。
但是,要检测30亿这样的庞大规模基因信息,可不是件容易事情,以一代测序为例,一次性只能检测1000个长度的碱基信息,现在价格便宜了,也要十几块钱,要是检测30亿这么长,大家可以计算下,是个非常庞大的数字。
而即使二代测序发达的今天,可以做很高通量的检测了,但是这个价格依然不菲。面对这种情况,我们就开发出了很多简便(简略)的做法,这样最大的意义在于:最佳性价比。
最常见的检测技术有以下几种,我们按照分辨率从低到高来介绍:
1,芯片检测
芯片检测是分辨率较低的一种检测,其做法就是在我们全基因组上挑一部分位点进行检测。比如我了解的目前市场上最大的几个面向大众的基因检测公司就是采取的这种办法,不同公司会根据产品的分类选择几十到几十万个基因变异位点,但是也只能覆盖基因组已知的一小部分变异,但是优点是价格低廉。
据我了解,目前市场上做基因检测的公司,大部分都是这么做的,价格可以降到100-300个档次。
2,全外显子组测序
这个就比较专业了,什么是外显子?基因一般简单的分为启动子区域,外显子区域和内含子区域。其中,最关键的是外显子区域,因为这个区域决定了基因编码蛋白质的情况。而对所有基因的全部外显子进行检测,就是全外显子组检测(Whole Exome Sequencing,WES)。
从这段可能很多人看起来难以理解的内容不难看出,这是专业领域范围,事实上,由于外显子组测序可以解决85%以上的基因异常情况,成为全球范围公认最适合应用于临床检测的测序技术。毕竟这个技术既能帮助我们获得最需要的、最关键的基因信息,又能够很好的减轻测序的成本负担。
而目前,WES技术已经非常成熟,甚至听说已经走入了消费市场领域(比如圆基因就是主打WES)。
3,全基因组测序
这个检测是真正意义上的“核武器”,是目前信息量最大的测序技术。我们上面提到的无论是芯片检测还是全外显子组检测,本质上都是一种“定制版”的基因检测,而全基因组测序,则可以真正做到把我们的全基因组那30亿个碱基对一一读出来,但是目前的基因组还有很多不明确的区域,因此数据利用率并不高,并且检测周期长。当然,价格也是不菲的。比如我最近刚刚做了几十个全基因组测序,那个价格感人啊, 搞得我自己心理压力也很大,万一测序结果不理想,发不了好文章,那真的是欲哭无泪啊。
以上是对三种测序技术的一个简介,我这里做一个简单的小结:
从分辨率角度:
芯片检测<全外显子组检测<全基因组检测
从价格角度
芯片检测>全外显子组检测>全基因组检测
而由于全基因组测序基本不向个人开放,所以芯片检测技术和WES全外显子组测序技术才是消费市场的主流,简单的一图比较如下:
而在面向消费者的基因检测领域,价格是最为敏感的,分辨率反而是其次的,因此,从当前市场来看,绝大多数的基因检测都是分辨率最低的芯片检测,价格区间大概在几百块左右。而分辨率居中,价格居中的全外显子组检测,在我看来,应该是一个最佳性价比的区域。因为芯片检测的分辨率实在太低了,而且还会丢失很多关键基因的信息,这种省了钱但是收获低的做法是不可取的。
当然,最佳的做法是全基因组检测了,不过价格较高了而且基本不对个人开放,比如我们科研这种大客户报价都是5k左右,我估计要是普通客户,可能价格得2万以上,毕竟我们业内人士自己会解读基因测序结果,而普通客户,给你一堆测序结果束手无策,这个解读成本不低。
Ps:
1、基因检测还有个测序深度的概念,这是一个专业名词,大致意思是平均覆盖深度。
所以,哪怕是同样的全基因组检测,也是有深度说法的,比如5x和30x的分辨率悬殊,而要做深度研究的时候,甚至需要200-300x,这样成本就好几万了。
2、当前测序主要是二代测序,三代测序目前还需要进一步成熟,当然价格也是很“感人“,大概是二代测序的5倍以上。
楼上几位都说得很好,我从我这边接触到的角度给予一些看法,自己工作方向并非技术口,所以有些表述可能不严谨。
首先,基因的测序和解读,在我看来一共有四个主要阶段。
1)样本采集后的基因测序:即采集样本,通过测序仪转变为原始数据。
2)信息分析:将原始数据筛选、拼接,变为可以做遗传分析的具体数据。
3)突变分析:针对检测出来结果中发现的基因突变情况,与数据库进行比对,结合模拟功能验证等等,分析目标突变是否存在实际意义。
4)结果解读:结合受检者临床实际情况,进行个性化分析,给予建议。
那么,不同的单位进行基因测序,实际上上述的四个层面,都会有不同的差异,这种差异也是巨大的,自然会导致结果的不同。
一、样本采集和基因测序:这里可以结合楼上两位讲的内容,样本采集的环境和保存不同,会直接影响样本的质量。即采即用与采了之后冰箱放个一年再用能可能测序出来的结果就不一致了。另外测序仪也是不一样的,目前分为一代二代三代。一代测序以sanger为主,是一种目标性比较明确的测序手段,在测序前必须明确要检测哪些片段,设计相应的引物,才能够进行检测。二代测序即高通量测序技术,可以不需要特定的目标片段,整体测序之后再根据自己需要进行分析,这里以Hiseq、Solexa等等为主。第三代则是边合成边测序和测序仪小型化,貌似比较成熟的就proton(这里不太确定proton是不是属于第三代),目前应用还比较少。
所以,根据测序仪器的不同,结果已经会不一样了。如果有个仅用sanger测序来进行健康体检服务的公司,那么必坑爹无疑。仅通过sanger测序来确定受检者的健康质量,等同于只根据受检者白头发的数量来断定受检者的年龄一样,非常的不严谨。(插一句,sanger测序在临床检测上面还是有很大的应用空间,例如地贫基因的检测,血友病基因的检测等等,只要检测片段不大,sanger绝对是最优选择,并且还有相应医疗试剂资质)。目前大部分的健康基因检测,至少都用二代测序仪,目前最成熟最快的是Hiseq2500。至于三代测序,proton我听说没太稳定。就不评论了。
二、信息分析。这个地方有一个很重要的概念,测序深度。测序深度的大致意思是对目标片段进行测序的过程中,平均会检测到的有意义的次数。一个人的遗传数据大概是3.2G,那么进行测序深度为十的测序,就需要产生32G的有意义的数据,再进行信息分析。测序深度的不同会导致结果的不一致,例如某人携带一个罕见致病突变,这个突变在他身体内发生率就10%左右,即通过10倍测序,只会有一次测出这个突变,那么问题就来了:这个发现的突变到底是测序误差还是受检者真实携带的。所以目前在基因组学研究中,通常用的是50倍测序,而临床检测,建议到80倍,甚至200倍测序深度才能够进行有效解读。
再回到信息分析的概念中,一个人有3.2G的数据,测序拿到320G(一百层深度测序),这320G的数据都是碎片状的,需要通过计算机软件结合相应的算法进行筛选和分析。现在一般拼接的软件都比较成熟,Hiseq和Proton也有自带的软件,应该问题不大。
所以在第二个环节,主要看测序公司的靠谱程度,比较有良心的一般都会选择50倍以上的测序深度来进行检测,如果那个30倍的来进行检测,只能呵呵了。并且,测序深度这个重要数值一般外行是不了解的,普通受检者也不会问的,比较容易被坑。
三、突变分析,这里也是一个大坑。通过上面说的,采集了合格的样本,用合适的测序仪进行测序,靠谱的测序深度,用靠谱的软件和人员进行信息拼接,拿到了受检者的精确基因信息了,下一步是解读。
怎么解读呢?这里还是先说概念:突变大致分为无义突变、非致病突变和致病突变。每个人身上都有非常多的突变,绝大多数的突变都是无意义的突变,即有没有这些突变身体都不受影响。其他的有意义的突变之中又分为致病突变和非致病突变,非致病突变决定人的一些常见性状,例如单双眼皮,眼睛颜色,头发卷直等等,而致病突变则有导致携带者患病的可能性。
这里存在一个问题,我们知道了受检者的突变情况,那么怎么判定某个突变就是上述三种突变的类型?目前来说最佳的策略还是数据库比对。国际上有三大数据库,分别在美国、欧洲和日本(我国的即国家基因库,在建)。这三大数据库中收录了全球科研及临床工作者发现的突变。那么就可以将受检者的突变放入数据库中检索,如果发现了吻合的情况,就可以基本确定受检者携带了某个致病突变(这里为了简化,不讨论致病突变和疑似致病突变的区别)。但是相比于未发现或者未确认的致病突变,已知并通过验证上传数据库的致病突变还是太少,那怎么办呢?可以进行反向筛选。即将受检者的突变放入正常人的突变数据中进行比对,从而剔除掉高频突变。例如受检者有一个突变,这个突变在人群中,超过一半的人都携带了这个同样的突变,并且这些人都没有明显的疾病,这样一来就可以认为这个突变很大可能是不致病的,可能是一个无义突变或者非致病突变,展示不需要分析。这样挨个比对(其实也是软件比对),再剔除掉一大部分,剩下的就是受检者自己携带了,这些突变背景库(正常人群组成的数据库)和致病库里面都没有相关信息,再进行后续分析。
剩下的突变进行分析就相当蛋疼,一般来说是软件模拟,即模拟这个突变的基因进行表达,看结果会不会导致蛋白组合失败等等,来分析突变是否会对人体有害。往往用不同的软件,结果已经不一致。更不用说前面那么冗长的比对过程中会不会出现什么差错。
在第三步中,如果提供服务的公司将数据拿进国际库进行比对,已经是不错的了。要是还拿去进行背景库比对,简直是业界良心了。至于最后的那种功能模拟……即使公司做了也不会告知受检者,里面的不确定因素太多。并且大多数接受健康体检的受检者本身都是大致健康的(没有患严重疾病),如果通过软件分析出一个突变会致病的结果,一不知道软件靠谱程度,二不知道会不会发病,三也不知道啥时候发病,四更可能是传给后代才发病。这么多不确定,怎么告知受检者,告知了也是找打。
这里的话,一般服务公司的做法是,自己构建一个数据库,把科研和临床上一些已经确认的突变位点放入其中。受检者测序完的结果就和这个数据库进行比对,对上的就是检出阳性了,对不上就是非发现可疑突变。靠谱么?多少还有点靠谱,不算太不靠谱。
四、结果解读。这个也比较难,一般,至少需要持遗传咨询拍照的医生可以做,国外情况不清除,国内的企业同时拥有这种专业医生并且测序技术、分析技术过关的没有几个。这里就不具体分析了。
综上,基因测序体检服务,目前看来,我认为还未到非常成熟的阶段,可以排除一些病因非常明确的疾病,但是拿来做健康预测还是有些问题,所以必须结合现有的常见技术手段。打个比方,基因测序体检,等同于我要分析一个湖中所有鱼的分布和种类情况,我一网捞了一堆鱼上来(测序技术落后的就只能钓鱼,测序够凶狠的直接把整个湖排干),但是我只认识鲫鱼和鲤鱼(数据库越牛认识的鱼越多,但是大家都肯定认不全),所以我只分析鲫鱼鲤鱼的数量,来判断整个湖的情况(靠谱公司的会说:“湖里面什么什么鱼的情况是怎样怎样的……”,不靠谱的公司直接说整个湖是怎样怎样的)。
如果问,怎样才能让这个服务靠谱,简单来说,就是先搞懂所有的鱼,再用靠谱的技术捕鱼、分析鱼,进而分析湖的情况。
最后加一句,如果有哪个公司号称可以用基因测序的手段分析一个人的二型糖尿病、肥胖、性格、天赋。十有八九都是坑爹。
处女答,谢谢。
以上。
谢邀,第一次被邀请回答问题还是诚惶诚恐的,所以专门连上VPN把题干里面那份不存在的报纸(NY Times)中的报道完整读了一遍。
首先,澄清一下题干,因为下面所引的这篇文章中的姑娘用她的DNA找了三家不同的公司做基因检测,其中Google创始人布林投资的23&Me采用的技术肯定不是基因测序(Gene Sequencing),而是基因芯片筛查(Gene Chip Screening),两者之间的区别可以简单理解为:测序是把基因组这本书从头到尾读完,芯片筛查是从这本书里选一些重要的标志性字符(单个碱基的变异,SNP),通过核查每个人的基因组在这些标志性字符处的变异状态,来分析这个人与疾病或其他性状的相关性。
另外两家公司在业内名气可能没有23&Me那么大,从他们的官网上很难判断出他们使用了哪种技术,但是单纯从成本来看,应该也不是测序,而更可能是芯片。但是这并不影响题目本身的意义,就是为什么不同公司的基因检测给出的疾病风险预测差别这么大。
人体和几乎所有生命体(某些RNA病毒和朊病毒除外)每一个细胞里面都有一套完整的基因组DNA,好比是一本完整的蓝图+施工手册。从受精卵开始,生命体就从这套手册选择不同的章节搭建不同功能的细胞,并让它们执行相应的功能。每个人的这套手册都略有不同(大多数就是前述的SNP),这些不同之处定义了人种、皮肤头发眼睛颜色等所有性状,也定义了对疾病的敏感性。上述三个公司代表的基因健康咨询产业,说白了就是试图找到一些与疾病相关的SNP位点,检测它们的状态,然后计算出一个概率,最后交到被检测者的手里。
但是问题就出在这个原理上面:首先什么样的SNP位点是真的与疾病相关的?其次它的相关性到底有多少?
前一个问题基本是靠大规模的关联性分析,其实是个统计学的概念。打个最极端的比方,找一千个身高2米的小明,再找一千个1米4的小明,假定他们的人种、营养这些背景都一致,然后找一个SNP位点(假定这个位点有A、B两种状态),在这两千人里面看一看有多少人在这个位点上是A,多少人是B,如果1000个高个子在这个位点上都是A,而1000个矮个子都是B,那么我们就可以比较肯定地说这个位点与身高的相关性非常强,一个婴儿刚生出来,就检查到他这个位点是A状态,那他长大后就有很大的几率长成高个子。
但这是非常理想非常极端的假设,实际上只有很少量单基因疾病(比如某种先天性耳聋)有这样斩钉截铁的结论,身高、体重、高血压、糖尿病、癌症,都是几百种基因相互纠结、再加上环境因素累加影响,再加上时间因素,才会表现出最后的差异。所以现在的人类遗传学里面,其实大家都是在尽可能地加大统计的人群,尽可能地寻找人种和背景条件一致的人群,尽可能地提高自己研究的统计力和概率的有效性。即使如此,不同的研究小组之间出来的结论也往往千差万别,而且由于他们选取的统计人群样本是不太会互相共享的,这种结论也就很少有条件由其他小组独立地重复核实。
到了这个时候,你就可以明白为什么这些基因遗传咨询公司给出的报告差异这么大。首先,他们选择的SNP位点可能来自于不同研究报告的结论,这些结论有的经过反复的检验,形成了金标准,但是还有一些并没有那么的靠谱;其次他们采用的检测技术和分析方案各有不同,同一个SNP位点的同一种状态,根据不同的分析方法也许就会出现不同的概率;最后他们在给出报告的时候,对人种、生活方式、环境因素的考量方式不同,也就会出现不同的概率。
而这些概率对这个参与检测的人而言,到底有多大的实际意义,我其实也就呵呵了。
那么现在基因检测里面有没有特别有临床意义,值得一做的呢?有!试列几个:
1. 乳腺癌易感基因BRCA1/2突变,其重要性已经被很多研究反复证实过,算是不多的可靠位点了。但是Angelina Julie是不是应该马上动刀切掉,个人意见是不以为然,实际上不如加强早期筛查,改善生活方式。
2. 癌症化疗药物的耐药基因,其中大多数都是经过大量临床实验验证的,针对特定癌症、特定药物,其关联性是比较高的。在确定化疗方案之前先选择相关药物耐药基因进行筛查,可以有效提高化疗方案的成功概率。
3. 通过采集母体血液进行胎儿染色体异常疾病(如唐氏综合症)无创筛查,准确率已经达到羊水穿刺等传统方法相同的水平。
最后,NY Times的科学文章水平比国内已经高了不知多少倍,但是仍然有不少事实性错误,好在他们采访面非常广,而且找了很多业内真正的专家。从这个角度来看国内的大众媒体科普文章水平,就能知道为什么一个转基因问题能够吵到这般地步。。。