百科问答小站 logo
百科问答小站 font logo



定量生物学(系统生物学、计算生物学、理论生物学)是否将成为未来生命科学研究的热点? 第1页

  

user avatar   fung-steel 网友的相关建议: 
      

短时间内,定量生物学难出大突破。因为目前定量生物学的算法,缺得特别厉害。

举个例子,一个定量组学数据出来,大部分就是做个PCA压缩,做个t-SNE压缩;或者做个聚类,或者共表达网络分析。压缩分类后,做下已知通路的富集分析。期和期之间,做下GSEA。

我写出来,不懂的会觉得不明觉厉,懂的都知道,这就是常规套路。全都依靠现有知识,解释自己的组学数据,全在凑已知通路。

大数据出来不应该预测新基因吗?炒冷饭有什么用呢?找未知功能基因,用机器学习里的模式识别啊。


目前行业里和机器学习搭边,最常用就是SVM,其他算法用得特别少。2000年就有人用卵巢癌和正常卵巢组织基因芯片数据,通过SVM预测哪个是癌组织。20年后,其他行业各种算法百花齐放,生物还是一水的SVM。

目前我看的文章里,做的最高级的SVM是2016年一篇寻找自闭症未知基因的Nature Neuroscience。通过2015年所有组织转录组数据,做基因共表达谱,再根据已知自闭症阳性和阴性基因和其他基因的共表达状况,用SVM找新基因。这篇文章预测的AUC能到0.75,后续用自闭症病人的测序数据,验证了预测基因与疾病的相关性。理论预测和实验很契合。

因为我也做过SVM预测,它有个很大问题,支持向量决定分离平面,所以支持向量数据的准确性严重影响分离平面的准确性。而普通实验中测个序,数据都有一定置信区间,不可能很准,这就制约了SVM在生物学预测的实用度。2016年那篇Nat Neuroscience为什么特别好,因为他用了成千上万篇文章里基因表达的相关性,不是单纯的基因定量值,大样本加上上升到co-occurancy层面,抹掉了数据不准的局限。所以预测就很准。

这才是未来。

---

说个题外话,为什么生物行业算法层面进步缓慢?

首先因为穷。做生信的大多是调包侠,能自己编程的不多;少数会编程的,大多是计算机专业,数学不行;能做核心算法的,本来就不多,都在其他高薪行业。真心希望机器学习大佬光顾下生物行业,救救孩子们。然而这工资水平,实在拿不出手。

另外一点,业内对算法不够重视。2000年那篇SVM引用量上千还是上万,也只发在Bioinformatics上。我目前做的工作也是组学的机器学习,做了新算法改良,也做了实验验证,还挺准。本来想做成方法学的文章,很多人都觉得做算法文章发不好。最后我改成了组学传统套路分析的Resourse。心累。




  

相关话题

  做科研时,都遇到过哪些灵光乍现(Eureka Moment)? 
  为什么当一个生物变大会承受不住自己的肉体? 
  老虎的挥击力到底有多少? 
  为什么猫吃东西总是要剩下一点 ? 
  可以用K线图分析病毒扩散走势吗? 
  那些经常储存脂肪的动物是如何避免肥胖引发的健康问题的? 
  吃什么可以改变自己的基因? 
  为什么中国的很多二本、三本学校会开设基础学科专业? 
  为什么人类繁殖能力不强、成年时间过长,却没有灭绝? 
  适者生存还是适者繁殖? 

前一个讨论
黑丝袜真的不能搭配运动鞋吗?
下一个讨论
你身边生化环材的博士混得最惨的,目前的近况如何?





© 2024-11-21 - tinynew.org. All Rights Reserved.
© 2024-11-21 - tinynew.org. 保留所有权利