短时间内,定量生物学难出大突破。因为目前定量生物学的算法,缺得特别厉害。
举个例子,一个定量组学数据出来,大部分就是做个PCA压缩,做个t-SNE压缩;或者做个聚类,或者共表达网络分析。压缩分类后,做下已知通路的富集分析。期和期之间,做下GSEA。
我写出来,不懂的会觉得不明觉厉,懂的都知道,这就是常规套路。全都依靠现有知识,解释自己的组学数据,全在凑已知通路。
大数据出来不应该预测新基因吗?炒冷饭有什么用呢?找未知功能基因,用机器学习里的模式识别啊。
目前行业里和机器学习搭边,最常用就是SVM,其他算法用得特别少。2000年就有人用卵巢癌和正常卵巢组织基因芯片数据,通过SVM预测哪个是癌组织。20年后,其他行业各种算法百花齐放,生物还是一水的SVM。
目前我看的文章里,做的最高级的SVM是2016年一篇寻找自闭症未知基因的Nature Neuroscience。通过2015年所有组织转录组数据,做基因共表达谱,再根据已知自闭症阳性和阴性基因和其他基因的共表达状况,用SVM找新基因。这篇文章预测的AUC能到0.75,后续用自闭症病人的测序数据,验证了预测基因与疾病的相关性。理论预测和实验很契合。
因为我也做过SVM预测,它有个很大问题,支持向量决定分离平面,所以支持向量数据的准确性严重影响分离平面的准确性。而普通实验中测个序,数据都有一定置信区间,不可能很准,这就制约了SVM在生物学预测的实用度。2016年那篇Nat Neuroscience为什么特别好,因为他用了成千上万篇文章里基因表达的相关性,不是单纯的基因定量值,大样本加上上升到co-occurancy层面,抹掉了数据不准的局限。所以预测就很准。
这才是未来。
---
说个题外话,为什么生物行业算法层面进步缓慢?
首先因为穷。做生信的大多是调包侠,能自己编程的不多;少数会编程的,大多是计算机专业,数学不行;能做核心算法的,本来就不多,都在其他高薪行业。真心希望机器学习大佬光顾下生物行业,救救孩子们。然而这工资水平,实在拿不出手。
另外一点,业内对算法不够重视。2000年那篇SVM引用量上千还是上万,也只发在Bioinformatics上。我目前做的工作也是组学的机器学习,做了新算法改良,也做了实验验证,还挺准。本来想做成方法学的文章,很多人都觉得做算法文章发不好。最后我改成了组学传统套路分析的Resourse。心累。