其现在也很难判断哪个是真正的风口,我建议是打好基础,不过我可以稍微几个有研究前景的方向,以供读者参考。
要说最明显的风口,我认为是巨量语言模型。从2020年1750亿参数的GPT-3,到今年的2457亿参数的源1.0,5300亿参数的MT-NLG等等,都表现出了无与伦比的语言理解和语言生成能力。
风口很明显,但是如果你要去抓,其实还是很难。你能看到风口在那里,但你学不到,因为门槛太高了。不仅仅是知识门槛,也是资源门槛。
从BERT开始,NLP就不属于个人研究者了。参数已经是亿级,十亿,百亿,千亿级了。不过了解下巨量语言模型发展的过程,以及其原理,还是很有必要的。下图是预训练语言模型的发展脉络。
不过这些模型都有一个名字,那就是Transformer-based model。如何学习Transformer-based model?这里推荐一篇文章。
除此之外,还是有一些学习成本相对低一些的风口,这里再讲两个。
最近几年,我们可以看到全球多个国家都针对个人数据和隐私保护建立了相关的法规,例如欧盟的GDPR。我国也在近日颁布了个人信息保护法。可以看到,保护隐私和个人数据,是未来的大趋势,如何在保护隐私的同时打破数据孤岛,让AI学习的同时不侵犯隐私,是未来很多年重要的研究课题。
其中一种保护隐私的AI技术是联邦学习, 其设计目标是保障信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或之间开展高效率的机器学习。联邦学习并不是一个模型,而是一种设计,可使用在多种机器学习算法中,例如神经网络,随机森林等算法。
书籍的话推荐经典的这本
知乎的话推荐 @lokinko 的专栏:
图神经网络(Graph Neural Networks, GNNs)是一种基于图结构的深度学习方法。图神经网络的应用场景多种多样,在端对端学习、推理、可解释性方面展示出了优势。
Graph Neural Network 在2019年到 2020年之间,成为各大顶会的增长最热门的关键词。
入门的话,我推荐《深入浅出图神经网络》