竟然能遇上我本专业的问题。额,其实我就是做过一点植物基因组的预测和注释,所以略懂一些。很少在知乎答题,看到这问题答案不太全,就大概答一下吧。
首先,需要明确的一点是:我们人类在完整地预测整个物种的基因组上还有很多研究要做。目前的方法可以预测出大部分的基因,但还是会有不少漏网之鱼。
然后,基因的定义那个夜神同学意见讲的很清楚了,总的就是编码蛋白和非编码的基因,题主问的多个内含子组成的编码区当然算基因啦,而那些非转录原件一般算feature,不算基因,这是定义问题不用太在意。
而怎么从一个未知的基因组中找到基因其实大体上分为三部分,1)是通过特有的结构来预测,也就是利用一些模型或者机器学习方法去找基因;2)是利用RNAseq数据,这是挺靠谱的,如果有测RNA的数据(相比拼基因组也不算贵),利用转录出来的RNA,返回去推基因的位置;3)是利用已知的数据库,比如近缘物种(也就是猩猩和人这样的关系)的信息,通过序列相似的思路去预测基因。(这些近缘的基因序列也可以用来做机器学习的训练集)。——其实也有人说分成“从头预测”和“同源比对”两部分,无所谓啦。
通过以上不同的方法分别预测出基因之后,再利用一些数学上的打分算法给各个预测结果打分,然后综合得到一个物种的全部基因信息(包括非转录原件等feature)。然后题主就可以一个一个数数,就得到推测的基因数量了(但是不是很准,大概也就80%~90%吧)。
预测出基因之后还要通过与另外的一些数据库的比较来得到基因的功能,这属于功能注释。然后初步的预测和注释工作就算结束了。再之后,人们还可以通过一些实验手段及进一步测序来不断补充剩下的那未知的10%,但这样的补完工作非常的繁琐且我不懂,所以就不介绍了。总之要知道即使是人类基因组,目前也不能说是完全搞定了。
不知道废话有没有太多,我就是简单的介绍一下给非专业人士看的,专业人士如果想获得更多的信息请直接阅读相关文献,例如我参与发表的这篇小文章:
Crop Genome Annotation: A Case Study for the Brassica rapa Genome
利益相关:第24届生竞国赛选手,银牌退役。
照这个说法我怕是被一只小龙虾挡在了北大的门外,真是呵呵哒。
媒体为了流量不要节操,寒的是热爱生命科学愿意在课业本就繁重的高中投入大量时间精力去学习的竞赛选手们的心。我们勤勤恳恳看书刷题做实验,秉烛达旦全年无休,却被一句轻飘飘的戏谑抹杀所有努力,这TM怎么能忍?
至于那些所谓权贵二代的阴谋化言论我想说,学竞赛买书做实验集训可能确实需要一点点财力支持,但学习方法因人而异丰俭由人,过五关斩六将的考试凸显的也是实实在在的能力,与家庭背景毫无扯上关系的可能。脑残和喷子们不过是看到了一个爆点,让他们自己高潮去吧。
PS微博用户财经太极猫在此前的南大支教事件中就发表了很多不良言论,这次又出来蹦哒,看到的朋友烦请顺手举报。