可能的原因有以下几个:
缺少中文介绍和中文数据,这个问题不局限于“NLP”领域,在更广泛的科研领域也是如此。
之前有幸私下向 @程明明 老师请教,讨论他的DOCX 倡议(开放共享科研记录行动倡议)。
当时我很担心执行这个倡议会给研究团队带来太多额外的负担,于是提了几个问题,比如:
为实现该倡议需要投入大量精力,比如“共享中文翻译版”论文,这对于小团队或者个人获得收益可能无法覆盖成本,请问是否有较为宽松的规范或者合适的激励手段?使用该倡议能否形成良性闭环?……
但程老师觉得执行层面反而不是主要矛盾,更重要的是意识的改变。
(节选一下讨论内容)
demo 稍微有点技术含量和硬件资源投入。把demo也开源了,技术关问题不大。长期维护得投入不关机的GPU服务器,这个得老师愿意投入。
open source 只要是真的,开源本身不难。学生也没有太多工作量。主要是老师这边认可开源是好事,而不是相反。
中文版 学生毕业论文要是中文版。早点翻译也有利于自己工作的推广
explain 同样需要时间投入,每次不多,但是可能需要长时间持续投入。
后续的执行情况也看到了,程老师所在课题组做了非常好的中文版本的开源工作。
相关讨论可以移步:
如何评价南开大学程明明老师的 DOCX 倡议(开放共享科研记录行动倡议)?
首先感谢 @邱锡鹏 和 @苏剑林 老师和各位知友的讨论,虽然他们对现有中文数据集有一些爱之深责之切的批评,但他们的讨论中也介绍了很多中文NLP数据集,读了回答也很有收益。
因为本人关注计算机视觉领域的小样本学习任务,机缘巧合下了解到了“CLUE”和“源 1.0”这两个NLP领域的中文数据集,就先介绍一下,如有错漏之处,请多多批评指教。
@bright 老师发起了 CLUE benchmark(中文语言理解测评基准) 项目,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。
语料库(CLUECorpus2020):语言建模、预训练或生成型任务
可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目
语料库概述
1.维基百科(wiki2019zh),100万个结构良好的中文词条
2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
3.百科问答(baike2018qa),150万个带问题类型的问答
4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
5.翻译语料(translation2019zh),520万个中英文句子对
项目信息建议直接移步项目仓库和主页:
https://github.com/CLUEbenchmark/CLUE
这个项目较为吸引我的是有专门的小样本和零样本赛道,组织了比赛而且有前几名的技术分享。
@忆臻 师兄之前做了分享: FewCLUE: 为中文NLP定制的小样本学习测评基准
(1)任务类型多样、具有广泛代表性。包含多个不同类型的任务,包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。
(2)研究性与应用性结合。在任务构建、数据采样阶段,即考虑到了学术研究的需要,也兼顾到实际业务场景对小样本学习的迫切需求。如针对小样本学习中不实验结果的不稳定问题,采样生成了多份训练和验证集;考虑到实际业务场景类别,采用了多个有众多类别的任务,并在部分任务中存在类别不均衡的问题。
(3)时代感强。测评的主要目标是考察小样本学习,也同时测评了模型的零样本学习、半监督学习的能力。不仅能考察BERT类擅长语言理解的模型, 也可以同时查考了近年来发展迅速的GPT-3类模型在零样本学习、小样本学习上的能力;
此外,提供小样本测评完善的基础设施。从任务设定,广泛的数据集,多个有代表性的基线模型及效果对比,一键运行脚本,小样本学习教程,到测评系统、学术论文等完整的基础设施。
总的来说,我觉得CLUE是一个很值得关注的基准,对小样本学习感兴趣的朋友也可以看看FewCLUE项目。
上个月月初,浪潮的朋友跟我说,你不是做小样本学习的吗,来看看我们的工作吧,我们挺强的。
当时他们还都排在零样本和小样本学习榜双双第二的位置,仅次于人类的表现。
小样本学习榜中他们是F1_Score首个超越0.70的研究团队,零样本学习至今还优于于第三名20%。
(没想到现在小样本榜被其他人超越了哈哈哈,无情。)
不过模型性能只是一方面,更重要的是他们也提供了一个系列开源开放计划:源 1.0
除了开放数据集和开源代码以外,还提供了开放API等多种形式为业界提供开放合作,人工智能相关高校和科研机构、产业伙伴及智能计算中心用户可通过“源1.0”官网 提出申请,经审核授权后即可使用。
我还阅读了他们的论文[1],论文中不仅提到了他们实现了当前最大规模的单体中文语言模型,还很详细地介绍了数据集的制作流程,不妨阅读一下论文,然后去申请使用API和数据集。
回到问题本身,为了解决中文NLP数据集很少的问题,我觉得开发者和研究者们应该携手起来,主动将自己的项目转换为中文开源版本,另外也应该主动使用和鼓励中文开源版本的工作,只有这样,才能良性循环。中文开源的社区氛围也会越来越好。