为什么中文 NLP 数据集这么少？第1页

xpqiu 网友的相关建议:

可能的原因有以下几个：

目前的NLP算法越来越语言无关，想改进一个算法在英文数据集上验证就够了。非得在中文对应的数据集验证下不是必须的。
中文数据集往往是跟风英文的任务，在任务创新上不足，又加剧了了第一条的效果。
使用中文数据集的论文往往不好发表。
鉴于以上几条，做中文数据集的收益很低，做了大概率是别人不用。除非是中文特有的任务，比如中文分词，但是做这些任务的影响力太低了。
这个问题不只是在NLP领域，其他领域貌似也存在。

youngfish42 网友的相关建议:

缺少中文介绍和中文数据，这个问题不局限于“NLP”领域，在更广泛的科研领域也是如此。

中文开源意识还需改进

之前有幸私下向 @程明明老师请教，讨论他的DOCX 倡议（开放共享科研记录行动倡议）。

当时我很担心执行这个倡议会给研究团队带来太多额外的负担，于是提了几个问题，比如：

为实现该倡议需要投入大量精力，比如“共享中文翻译版”论文，这对于小团队或者个人获得收益可能无法覆盖成本，请问是否有较为宽松的规范或者合适的激励手段？使用该倡议能否形成良性闭环？……

但程老师觉得执行层面反而不是主要矛盾，更重要的是意识的改变。

（节选一下讨论内容）

demo 稍微有点技术含量和硬件资源投入。把demo也开源了，技术关问题不大。长期维护得投入不关机的GPU服务器，这个得老师愿意投入。
open source 只要是真的，开源本身不难。学生也没有太多工作量。主要是老师这边认可开源是好事，而不是相反。
中文版学生毕业论文要是中文版。早点翻译也有利于自己工作的推广
explain 同样需要时间投入，每次不多，但是可能需要长时间持续投入。

后续的执行情况也看到了，程老师所在课题组做了非常好的中文版本的开源工作。

我所了解的中文NLP数据集，以“CLUE”和“源 1.0”为例

首先感谢 @邱锡鹏和 @苏剑林老师和各位知友的讨论，虽然他们对现有中文数据集有一些爱之深责之切的批评，但他们的讨论中也介绍了很多中文NLP数据集，读了回答也很有收益。

因为本人关注计算机视觉领域的小样本学习任务，机缘巧合下了解到了“CLUE”和“源 1.0”这两个NLP领域的中文数据集，就先介绍一下，如有错漏之处，请多多批评指教。

CLUE benchmark

@bright 老师发起了 CLUE benchmark（中文语言理解测评基准） 项目，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

语料库(CLUECorpus2020)：语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等，数据量超过14G，近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目

语料库概述
1.维基百科(wiki2019zh)，100万个结构良好的中文词条
2.新闻语料(news2016zh)，250万篇新闻，含关键词、描述
3.百科问答(baike2018qa)，150万个带问题类型的问答
4.社区问答json版(webtext2019zh)，410万个高质量社区问答，适合训练超大模型
5.翻译语料(translation2019zh)，520万个中英文句子对

项目信息建议直接移步项目仓库和主页：

https://github.com/CLUEbenchmark/CLUE

www.cluebenchmarks.com

这个项目较为吸引我的是有专门的小样本和零样本赛道，组织了比赛而且有前几名的技术分享。

@忆臻师兄之前做了分享： FewCLUE: 为中文NLP定制的小样本学习测评基准

（1）任务类型多样、具有广泛代表性。包含多个不同类型的任务，包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。
（2）研究性与应用性结合。在任务构建、数据采样阶段，即考虑到了学术研究的需要，也兼顾到实际业务场景对小样本学习的迫切需求。如针对小样本学习中不实验结果的不稳定问题，采样生成了多份训练和验证集；考虑到实际业务场景类别，采用了多个有众多类别的任务，并在部分任务中存在类别不均衡的问题。
（3）时代感强。测评的主要目标是考察小样本学习，也同时测评了模型的零样本学习、半监督学习的能力。不仅能考察BERT类擅长语言理解的模型，也可以同时查考了近年来发展迅速的GPT-3类模型在零样本学习、小样本学习上的能力；
此外，提供小样本测评完善的基础设施。从任务设定，广泛的数据集，多个有代表性的基线模型及效果对比，一键运行脚本，小样本学习教程，到测评系统、学术论文等完整的基础设施。

总的来说，我觉得CLUE是一个很值得关注的基准，对小样本学习感兴趣的朋友也可以看看FewCLUE项目。

源 1.0

上个月月初，浪潮的朋友跟我说，你不是做小样本学习的吗，来看看我们的工作吧，我们挺强的。

当时他们还都排在零样本和小样本学习榜双双第二的位置，仅次于人类的表现。

小样本学习榜中他们是F1_Score首个超越0.70的研究团队，零样本学习至今还优于于第三名20%。

（没想到现在小样本榜被其他人超越了哈哈哈，无情。）

不过模型性能只是一方面，更重要的是他们也提供了一个系列开源开放计划：源 1.0

除了开放数据集和开源代码以外，还提供了开放API等多种形式为业界提供开放合作，人工智能相关高校和科研机构、产业伙伴及智能计算中心用户可通过“源1.0”官网提出申请，经审核授权后即可使用。

我还阅读了他们的论文^[1]，论文中不仅提到了他们实现了当前最大规模的单体中文语言模型，还很详细地介绍了数据集的制作流程，不妨阅读一下论文，然后去申请使用API和数据集。

回到问题本身，为了解决中文NLP数据集很少的问题，我觉得开发者和研究者们应该携手起来，主动将自己的项目转换为中文开源版本，另外也应该主动使用和鼓励中文开源版本的工作，只有这样，才能良性循环。中文开源的社区氛围也会越来越好。

参考

^Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning https://arxiv.org/abs/2110.04725

为什么中文 NLP 数据集这么少？的其他答案点击这里

前一个讨论

感觉北师大不如华东师大的人文关怀，真实情况是这样吗?

下一个讨论

降低医生的收入以减少医患关系紧张是否可行？

为什么中文 NLP 数据集这么少？第1页

中文开源意识还需改进

我所了解的中文NLP数据集，以“CLUE”和“源 1.0”为例

CLUE benchmark

源 1.0

参考

相关话题

前一个讨论

下一个讨论

相关的话题

为什么中文 NLP 数据集这么少？ 第1页

中文开源意识还需改进

我所了解的中文NLP数据集，以“CLUE”和“源 1.0”为例

CLUE benchmark

源 1.0

参考

相关话题

前一个讨论

下一个讨论

相关的话题

为什么中文 NLP 数据集这么少？第1页