2021年伊始,我希望从一个从业者和研究者的角度谈谈我对数据挖掘领域和机器学习的一些期待。
首先在我看来最最最重要的就是可扩展性(scalability),也就是怎么把大规模智能模型部署到硬件上,并实时的进行预测和分析。去年和两家知名的业界金融公司(他们俩家加起来占到了全美信用卡结算的70%)的机器学习负责人有过交流,大家面临的共同问题都是虽然机器学习模型在小规模数据上表现的确不错,比传统的规则模型和统计模型要好。但是部署到大规模的尺度上,需要处理每秒上千万的交易时,没有一个模型可以用且没有现成的部署。这就造成了一个尴尬的现状,在很多传统领域,想要做到实时预测,最缺的不是算法,而是系统和部署。这也是为什么我从19年开始转向了机器学习系统方向,研究怎么能高效的部署和使用算法。最近做了一系列加速传统模型的算法和系统,希望很快可以和大家见面。
而可扩展性的另一面就是轻量化和边缘计算(edge computing),比如怎么在移动设备(比如手机和智能手表)上部署机器学习和数据挖掘模型。这个需求是明显的,比如智能设备上有了越来越多的传感器,可能可以被用于实时检测健康状况和各种各样的风险。而移动设备上的运算能力和硬件都是有很大局限性的,因此对模型进行压缩、蒸馏,对数据进行降维等一系列操作就变得更为重要。因此我也对这一方向充满期待,如果能实现的话,物联网的智能性一定可以得到大幅度的提升。
而随着机器学习的发展,智能系统变得愈发精准,而“定制化”和“隐私”之间的冲突也变得越来越大。换句话说,我们希望智能系统对于我们的预测是精准但不侵犯隐私的。所以我对于未来智能系统的期待是如何在保护隐私的前提下做到足够定制化和精准化,这虽然有冲突但我们或许可以期待越来越被重视的差分隐私和联邦学习等。
随着模型复杂度爆炸式的增长,从开发者的角度而言我们也在想如何获得越来越便宜的运算能力。而未来的世界可能算力就是实力,对于复杂的问题我的算力就代表了实力。因此我对于未来的愿景也有如何得到更加便宜的算力,或者对于学术界和非盈利性组织提供更便宜的算力。如果哪个大企业刚好看到这个回答,欢迎联系资助我们的一系列开源项目的算力。AI for all! Free for all!
如果谈2020年的话,肯定逃不过新冠疫情。而这其实也引出了另一个充满了前景的方向,即用机器学习辅助生物制药,也欢迎关注我们在这个方向刚刚开源的第一个全面且大规模的数据集和benchmark集合(微调:TDC:机器学习+生物医药{数据集+LB})。我们相信机器学习可以拓展到各行各业,最终帮助我们获得各个方面的提升。而其中最重要的,莫过于医疗健康。
每一年单看都是巨变的一年,而放到漫长的时间轴上都只是连续的微小的一点。在2021年的开头,很开心能抛砖引玉列出一些我很期待的方向,也算是过去一阵子的总结思考。
未来很远,明天很近。
谢邀 @fifizoo
首先就是《中国居民膳食指南》在 2021 年很可能会迎来大的更新升级。
膳食指南各个国家都有,各个国家通过综合分析大量营养学研究,做出符合这个国家居民营养状况的膳食指导建议,汇总起来就是膳食指南。
随着时代发展,一方面营养学研究也一直在不断进步,更多证据的出现可能会改变之前的一些膳食建议。另一方面人群的膳食结构也在不断改变,所以也需要用新的建议去指导膳食。
目前的《中国居民膳食指南》是 2016 版的,已经有 5 年没有更新。不知道这次更新会做出什么新的调整,很期待。
除了膳食指南外,目前的 GB7718《预包装食品标签通则》也可能在 2021 年迎来大的更新。
《预包装食品标签通则》规定了食品包装上到底能写什么,不能写什么。食品品名,配料表这些东西到底该怎么写,具体的规则是什么,等等……
目前的《预包装食品标签通则》是 2011 版的,已经近十年没有更新。这次的更新肯定是「大修」,很期待这次会带来什么新的内容。
在之前流传的征求意见稿中,我看到了一些亮点,当然,这些内容不一定会在最终版本中被采用:
还有,GB 2760《食品添加剂使用标准》可能也会在今年进行大的更新。
GB 2760 规定了每种食品添加剂的作用,使用范围和限量。随着时代发展,越来越多的新型食品添加剂被研发出来,这些新的添加剂需要整合到 GB 2760 中。此外有些原有的添加剂可能会扩大范围,这都要求 GB 2760 定期进行更新。
目前的《食品添加剂使用标准》是 2014 版本的,也已经 6 年没有大的更新了。很期待 2021 年新版的标准能出来。