百科问答小站 logo
百科问答小站 font logo



为什么中文 NLP 数据集这么少? 第1页

  

user avatar   xpqiu 网友的相关建议: 
      

可能的原因有以下几个:

  1. 目前的NLP算法越来越语言无关,想改进一个算法在英文数据集上验证就够了。非得在中文对应的数据集验证下不是必须的。
  2. 中文数据集往往是跟风英文的任务,在任务创新上不足,又加剧了了第一条的效果。
  3. 使用中文数据集的论文往往不好发表。
  4. 鉴于以上几条,做中文数据集的收益很低,做了大概率是别人不用。除非是中文特有的任务,比如中文分词,但是做这些任务的影响力太低了。
  5. 这个问题不只是在NLP领域,其他领域貌似也存在。

user avatar   youngfish42 网友的相关建议: 
      

缺少中文介绍和中文数据,这个问题不局限于“NLP”领域,在更广泛的科研领域也是如此。


中文开源意识还需改进

之前有幸私下向 @程明明 老师请教,讨论他的DOCX 倡议(开放共享科研记录行动倡议)

当时我很担心执行这个倡议会给研究团队带来太多额外的负担,于是提了几个问题,比如:

为实现该倡议需要投入大量精力,比如“共享中文翻译版”论文,这对于小团队或者个人获得收益可能无法覆盖成本,请问是否有较为宽松的规范或者合适的激励手段?使用该倡议能否形成良性闭环?……

但程老师觉得执行层面反而不是主要矛盾,更重要的是意识的改变

(节选一下讨论内容)

demo 稍微有点技术含量和硬件资源投入。把demo也开源了,技术关问题不大。长期维护得投入不关机的GPU服务器,这个得老师愿意投入。
open source 只要是真的,开源本身不难。学生也没有太多工作量。主要是老师这边认可开源是好事,而不是相反。
中文版 学生毕业论文要是中文版。早点翻译也有利于自己工作的推广
explain 同样需要时间投入,每次不多,但是可能需要长时间持续投入。


后续的执行情况也看到了,程老师所在课题组做了非常好的中文版本的开源工作。

相关讨论可以移步:

DOCX:开放共享科研记录行动倡议

如何评价南开大学程明明老师的 DOCX 倡议(开放共享科研记录行动倡议)?



我所了解的中文NLP数据集,以“CLUE”和“源 1.0”为例

首先感谢 @邱锡鹏@苏剑林 老师和各位知友的讨论,虽然他们对现有中文数据集有一些爱之深责之切的批评,但他们的讨论中也介绍了很多中文NLP数据集,读了回答也很有收益。


因为本人关注计算机视觉领域的小样本学习任务,机缘巧合下了解到了“CLUE”和“源 1.0”这两个NLP领域的中文数据集,就先介绍一下,如有错漏之处,请多多批评指教。

CLUE benchmark

@bright 老师发起了 CLUE benchmark(中文语言理解测评基准) 项目,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

语料库(CLUECorpus2020):语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等,数据量超过14G,近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目

语料库概述
1.维基百科(wiki2019zh),100万个结构良好的中文词条
2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
3.百科问答(baike2018qa),150万个带问题类型的问答
4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
5.翻译语料(translation2019zh),520万个中英文句子对

项目信息建议直接移步项目仓库和主页:

github.com/CLUEbenchmar

www.cluebenchmarks.com

这个项目较为吸引我的是有专门的小样本和零样本赛道,组织了比赛而且有前几名的技术分享。

@忆臻 师兄之前做了分享: FewCLUE: 为中文NLP定制的小样本学习测评基准

(1)任务类型多样、具有广泛代表性。包含多个不同类型的任务,包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。
(2)研究性与应用性结合。在任务构建、数据采样阶段,即考虑到了学术研究的需要,也兼顾到实际业务场景对小样本学习的迫切需求。如针对小样本学习中不实验结果的不稳定问题,采样生成了多份训练和验证集;考虑到实际业务场景类别,采用了多个有众多类别的任务,并在部分任务中存在类别不均衡的问题。
(3)时代感强。测评的主要目标是考察小样本学习,也同时测评了模型的零样本学习、半监督学习的能力。不仅能考察BERT类擅长语言理解的模型, 也可以同时查考了近年来发展迅速的GPT-3类模型在零样本学习、小样本学习上的能力;
此外,提供小样本测评完善的基础设施。从任务设定,广泛的数据集,多个有代表性的基线模型及效果对比,一键运行脚本,小样本学习教程,到测评系统、学术论文等完整的基础设施。

总的来说,我觉得CLUE是一个很值得关注的基准,对小样本学习感兴趣的朋友也可以看看FewCLUE项目。


源 1.0

上个月月初,浪潮的朋友跟我说,你不是做小样本学习的吗,来看看我们的工作吧,我们挺强的。

当时他们还都排在零样本和小样本学习榜双双第二的位置,仅次于人类的表现。

小样本学习榜中他们是F1_Score首个超越0.70的研究团队,零样本学习至今还优于于第三名20%。

(没想到现在小样本榜被其他人超越了哈哈哈,无情。)


不过模型性能只是一方面,更重要的是他们也提供了一个系列开源开放计划:源 1.0

除了开放数据集和开源代码以外,还提供了开放API等多种形式为业界提供开放合作,人工智能相关高校和科研机构、产业伙伴及智能计算中心用户可通过“源1.0”官网 提出申请,经审核授权后即可使用。

我还阅读了他们的论文[1],论文中不仅提到了他们实现了当前最大规模的单体中文语言模型,还很详细地介绍了数据集的制作流程,不妨阅读一下论文,然后去申请使用API和数据集。




回到问题本身,为了解决中文NLP数据集很少的问题,我觉得开发者和研究者们应该携手起来,主动将自己的项目转换为中文开源版本,另外也应该主动使用和鼓励中文开源版本的工作,只有这样,才能良性循环。中文开源的社区氛围也会越来越好。

参考

  1. ^Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning https://arxiv.org/abs/2110.04725



  

相关话题

  人工智能可以为人类找寻他们心目中的另一半吗? 
  如何理解链接预测(link prediction)? 
  计算机视觉(cv)方向今年招聘情况怎么样?是否已经人才过剩? 
  为什么交叉熵(cross-entropy)可以用于计算代价? 
  为什么CV能做到让一幅人脸图动了笑了,而NLP的text-style-transfer进展貌似一般? 
  GAN生成的数据没有标签怎么用来训练分类模型? 
  现代人工神经网络是不是一个死胡同?这个技术是不是骗人的? 
  什么是大模型?超大模型?Foundation Model? 
  如何评价Sony新出的深度学习库NNabla? 
  如何看待FAIR提出的8-bit optimizer:效果和32-bit optimizer相当? 

前一个讨论
感觉北师大不如华东师大的人文关怀,真实情况是这样吗?
下一个讨论
降低医生的收入以减少医患关系紧张是否可行?





© 2025-01-18 - tinynew.org. All Rights Reserved.
© 2025-01-18 - tinynew.org. 保留所有权利