前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级

超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级

作者头像
新智元
发布于 2020-04-26 04:18:05
发布于 2020-04-26 04:18:05
1.9K0
举报
文章被收录于专栏:新智元新智元

新智元原创

编辑:小智,元子

【新智元导读】首个专为中文NLP量身打造的CLUE升级了!目前拥有八个数据集的整体测评及其基线模型,30多位来自各个顶尖机构的志愿者加入并成为了会员。CLUE还发布了已经处理好的100G大规模中文语料,研究者可直接拿来做预训练,完成下游的语言理解、文本分类等任务。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

做中文NLP,太难了!

分词难。

分在不同的位置意思大不同。比如「我喜欢上一个人」,到底说的是「I like the last one」,还是说「I'm falling love with someone」?需要根据上下文语境来判断。

「一位友好的哥谭市民」 vs「一位友好/的哥/谭市民」

容易混淆的中文例子

多音字也难。

用过具有AI阅读功能的读书app,你会发现很多时候它读的停顿不对,很多读音也不对,比如把「有债必还」,读成「有债必孩」。千万别让孩子跟着AI学语文!

获取资源更难。

英文很多数据集、预训练模型都是开源的,而中文这方面非常稀缺,虽然很多大厂最先进的技术都用上了,但没有开源数据集和预训练模型,那么多数人就用不上;同时由于是针对企业内部定制的,缺乏普适性。

天下苦中文NLP久矣!

好在,希望出现了!

一群中文NLP开发者,凭着一腔热情,利用业余时间,在GLUE的基础上,做出了中文语言理解测评基准CLUE。这是什么精神?

CLUE包含了代表性的数据集、基准(预训练)模型、语料库、排行榜。

它的诞生,承载着这群开发者巨大的野心:跑遍主流的中文数据集,解决当前中文任务公开可用数据集匮乏、没有基准测评、最先进的预训练模型不足等中文任务基础设施问题,见证像BERT一样、更强大的中文 NLP 模型。

目前CLUE主要构建了以下内容:

  • 八个中文自然语言理解任务。
  • 一个用于预训练的超大规模数据集。
  • 一个排名系统,一个榜单,和一个辅助工具。

8项任务,多个标准全面衡量预训练模型的语言理解能力

本次选取的8个任务可以全面测试预训练模型的语言理解能力,CLUE团队制定了一套科学的任务遴选标准。

不同的任务中文本的大小、语言理解的类型、训练的样本量都要有差异性,而且每个任务必须要有明确的定义,比如短文本的分类任务,句子相似性判断等。CLUE官方会处理好数据,让研究者可以更专注在建模本身。

任务的难度方面,不能太简单也不能是已经解决的问题,太简单的问题没有研究价值,只有未解决的问题才能激发研究者去搭建更好的模型。

任务必须是自然语言理解任务的代表,可以很容易应用到现实场景,如果任务很生僻没有实用价值,那它就没有多大意义了。

最后一点,任务要能衡量汉语独有的语言特性,比如成语、俗语,这块将会给模型带来巨大的挑战,汉语本身就很难了,再加上成语大多是高度概括的,模型理解起来就更有难度。

八个任务

100GB原始语料库的大规模预训练数据集

CLUE官方总共收集了214 GB的原始语料库,大约760亿个单词,包含三个部分,CLUECorpus2020-small,CLUECorpus2020和CLUEOSCAR。

CLUECorpus2020-small包含14 GB的中文语料库,包括四个子部分:新闻,网页文本,维基百科和评论。

CLUECorpus2020包含100 GB的中文原始语料库,该语料库可从Common Crawl中检索。这个数据集可以直接用于预训练,而无需其他预处理,包含约2万9千个单独的文件,每个文件都处理成了预训练格式。

CLUEOSCAR是一个庞大的多语种语料库,它是通过Common Crawl语料库的语言分类过滤得到的,包含250 GB的中文原始语料库,做进一步的处理后,最终得到100 GB的中文数据。

一键遍历所有任务,代码开源可获官方认证

你建好了模型,还要一个个去适配所有的8个任务,那就太麻烦了,CLUE官方专门写了一个工具PyCLUE,可以帮你一键完成在不同任务的测试。

为了检测模型是否真正理解了句子的语义,结合中文的特点手工制作了一个包含514个句子对的诊断集,这些句子对覆盖了常见的9种容易造成错误理解的场景。

CLUE还提供了一个排行榜,供用户在CLUE上提交自己的结果。当用户提交预测结果时,评估系统将为每个任务提供最终分数。为了鼓励模型复现,如果模型是开源的,会将模型标记为“已认证”。

看看榜单上这些名字!华为、腾讯都来CLUE刷榜了,但看起来都不如CLUE官方团队提供的人类成绩,实力还是有待提高!

如果想了解CLUE的更多详细信息,可参见CLUE团队最近发表在arxiv的论文。

论文链接:

https://arxiv.org/abs/2004.05986

中文NLP开发者们,一起来壮大CLUE吧!

现在,CLUE诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者提供更多的中文自然语言理解数据集。这些数据集可以是你自己制作推出的,也可以是您认为很有意义但是是他人制作的数据集。CLUE官方计划在5月14日前完成筛选,推出正式的CLUE Benchmark。

请您将推荐数据集的名称、作者、形式以及License情况发送至:

CLUE@CLUEBenchmarks.com

只需满足以下要求,即可进行推荐:

  1. 任务与自然语言理解相关:要求数据集能够测试模型是否理解了中文,模型可以是以研究为导向,也可以由实际应用为导向,重点是需要包含语言理解的成分。
  2. 任务形式:任务输入是一段文本(可长可短),具体任务可以是分类、序列标注、指代消歧、多项选择、回归任务,等等。【任务最好能够使用基本的神经网络模型做出基线,方便测评】
  3. 能够测评:提交的任务需要有简单、客观的评测标准。如果是包含文本生成的项目,那么需要证明该项目有易行的可靠评测标准。
  4. 公开的训练数据:任务的训练数据和开发数据需要公开,并且能够由CLUE使用。
  5. 未公开的测试集:任务最好有尚未公开的测试集。
  6. 任务难度:提交的任务不能太简单。具体来讲,目前的模型如BERT应该比训练过的普通标注者做的差很多。

如果您推荐的数据集被选中,将能极大扩展数据集的知名度,并为学界、业界对自然语言理解的研究做出贡献

点击阅读原文即可查看CLUE的官网详细介绍。

参考链接:

http://www.cluebenchmark.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布
10 月 18 日,2019 中关村论坛平行论坛 ——AI WORLD 2019 世界人工智能峰会在北京启幕。新智元杨静、科大讯飞胡郁、微软王永东、华为王成录、英特尔宋继强、旷视及智源学者孙剑、滴滴叶杰平、AWS 张峥、依图颜水成、地平线黄畅、autowise.ai 黄超等重磅嘉宾中关村论剑,重启充满创新活力的 AI 未来。峰会现场,新智元揭晓 AI Era 创新大奖,并重磅发布 AI 开放创新平台和献礼新书《智周万物:人工智能改变中国》。回放链接:
新智元
2019/11/01
1.2K0
超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布
全面超越BERT、XLNet,中文最强NLP模型百度ERNIE2.0发布!
今年3月份,百度发布了NLP模型ERNIE初代版本。这个模型刚一出世,便取得了骄人成绩:在中文任务中,全面超越当前最强NLP模型BERT,一度引发业界广泛关注和探讨。而短短4个月时间,百度ERNIE就进化到了2代版本,这是一个中英文对话的AI框架和模型。
新智元
2019/08/05
2K0
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
ChineseGLUE 的成员包括全国各地关注 NLP 的热心专业人士,包括清华、北大、浙大等知名高校的毕业生。团队的愿景是通过完善中文语言理解基础设施,促进中文语言模型的发展,能够作为通用语言模型测评的补充,以更好地服务中文语言理解、任务和产业界。
机器之心
2019/10/24
1.6K0
AI首次超越人类!腾讯、阿里的NLP模型,比你更懂中文
在AI科技圈,「中文语言理解」一直是一个难以攻克的问题。因为在全世界所有的语言中——中文的难度系数是最高的。
新智元
2023/01/08
4410
AI首次超越人类!腾讯、阿里的NLP模型,比你更懂中文
全球最大AI巨量模型,参数2457亿炼丹16天专注中文,打造者绝对让你意外
晓查 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一个比GPT-3还大的AI模型,如果把近5年中文互联网能爬取到的内容看了个遍,会怎么样? 能学会日语。 我们把日语词汇“气持”的中文含义告诉它,它能熟练运用“气持”造句。 也许你没见过“气持”这个词,但你大概听过它的发音“kimochi”(手动狗头) 新词 输入-语义 生成文本 气持 “气持”是心情、精神状态的意思。例:“那种消极的气持又控制了他”。用“气持”写一句话: 他的气持,使我无法接近 悬命 “悬命”是拼命,竭尽全力,做出最大努力
量子位
2023/03/01
4600
全球最大AI巨量模型,参数2457亿炼丹16天专注中文,打造者绝对让你意外
腾讯云在CLUE自然语言理解分类任务中勇夺第一
近日,腾讯云AI与腾讯优图实验室的加速团队在CLUE语言分类任务上进行试验,一举在分类任务1.0和1.1中拿下业界第一的好成绩。
腾讯云TI平台
2021/11/09
6870
超难NLP新基准SuperGLUE正式发布:横扫SOTA模型BERT勉强过关
目前NLP主要着眼在多任务学习和语言模型预训练,从而孕育出各种模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。为了评估这些模型的精准度,GLUE基准应运而生。
新智元
2019/08/15
2.5K0
OPPO登顶CLUE与MUGE,刷新中文自然语言理解与图文多模态双榜记录
2022年11月9日,OPPO语音语义研究部融智团队提出的中文预训练大模型CHAOS ,在中文自然语言理解测评基准CLUE上登顶,以30亿参量同时刷新了CLUE总排行榜、CLUE分类任务排行榜和CLUE阅读理解排行榜的最好成绩。其中在“AFQMC,TNEWS,CSL,CHID1.1”4个赛道的成绩超过了人类识别精确准确度,总成绩距离超越人类表现仅差0.1。
芯智讯
2022/11/22
6260
OPPO登顶CLUE与MUGE,刷新中文自然语言理解与图文多模态双榜记录
百度开源自然语言理解模型 ERNIE 2.0,16 个 NLP 任务中碾压 BERT 和 XLNet!
7 月 30 日,百度发布了 ERNIE(Enhanced Representation through kNowledge IntEgration)的优化版本——ERNIE 2.0 自然语言理解框架。这个中英文对话的 AI 框架不仅获得了最优的(SOTA)结果,并且在 16 个 NLP 任务中表现出优于 BERT 和最近的 XLNet 的高水准。目前,ERNIE 2.0 代码和英文预训练模型已开源。
AI研习社
2019/08/06
5120
用更少GPU完成更多计算量,中文巨量模型源1.0比GPT-3强在哪里?
自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpenAI 的 GPT-3(1,750 亿)、智源研究院的 WuDao2.0(1.75 万亿)……
机器之心
2021/12/27
1.4K0
用更少GPU完成更多计算量,中文巨量模型源1.0比GPT-3强在哪里?
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
论文标题:Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese 论文链接:https://arxiv.org/pdf/2110.06696.pdf 论文代码:https://github.com/Langboat/Mengzi 论文作者:{Zhuosheng Zhang etc.}
致Great
2022/01/06
7870
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
中文NLP福利!大规模中文自然语言处理语料
众所周知,中文NLP领域缺乏高质量的中文语料。作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。希望大家一起为该项目贡献语料,感兴趣的同学可以直接关注该项目github地址,和作者直接联系,点击文末"阅读原文"直达github链接,可下载相关语料:
新智元
2019/03/07
7.2K0
中文NLP福利!大规模中文自然语言处理语料
轻量型模型比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
机器之心发布 机器之心编辑部 周明团队提出孟子预训练模型,刷新 CLUE 榜单。 近日,澜舟科技 - 创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型—孟子轻量型模型,超越腾讯、搜狗等公司,在中文语言理解评测 CLUE 榜单上登顶第一,刷新业界记录。 作为中文语言理解领域最具权威性的测评基准之一,CLUE 涵盖文本相似度、分类、自然语言推理、阅读理解等共 10 项语义分析和理解类子任务。近段时间,来自腾讯、搜狗、华为、阿里达摩院的团队纷纷以大模型刷新此榜单。 据了解,澜舟科技是创新工场孵
机器之心
2023/03/29
5710
轻量型模型比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
NLP推理与语义相似度数据集
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程   公众号:datayx Chinese NLP Toolkits 中文NLP工具 Toolkits 综合NLP工具包 THULAC 中文词法分析工具包 by 清华 (C++/Java/Python) NLPIR by 中科院 (Java) LTP 语言技术平台 by 哈工大 (C++) pylyp LTP的python封装 FudanNLP by 复旦 (Java) BaiduLac by 百度 Baidu's open-source lexi
机器学习AI算法工程
2022/08/26
1.9K0
NLP推理与语义相似度数据集
自监督方法提升语言模型否定鲁棒性:引入NSPP及NSP变体,在九基准测试及CondaQA表现优异 !
在人工智能(AI)的迅猛发展背景下,本研究旨在探讨人工智能领域的最新进展及其在各个行业的应用。通过对相关文献的回顾和分析,本文将概述当前AI技术的发展趋势,并展望其在未来可能带来的变革。
AIGC 先锋科技
2025/04/14
990
自监督方法提升语言模型否定鲁棒性:引入NSPP及NSP变体,在九基准测试及CondaQA表现优异 !
这群工程师,业余将中文 NLP 推进了一大步
内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几个项目。
HyperAI超神经
2020/03/10
1.1K0
这群工程师,业余将中文 NLP 推进了一大步
中文世界又多一个评测语言大模型能力的基准CUGE,覆盖17种主流NLP任务
在自然语言处理(NLP)领域,预训练模型刷榜已经成为行业惯例。目前,面向英文任务的评测基准有 GLUE、SuperGLUE,面向中文任务的有 ChineseGLUE(简称 CLUE)。
机器之心
2022/01/20
1.4K0
中文世界又多一个评测语言大模型能力的基准CUGE,覆盖17种主流NLP任务
做项目一定用得到的NLP资源【分类版】
原文链接:https://github.com/fighting41love/funNLP
流川疯
2022/09/20
2.2K0
首个中文版ChatGPT来了:大模型的中国元“Yuan”
机器之心发布 机器之心编辑部 元语智能的功能型对话大模型 ChatYuan「既泛又专」,除了问答、上下文对话以及创意性写作等各类自然语言理解和生成任务之外,还能回答法律、医疗等专业领域的问答,并且写代码功能也已经在内测中,不久即将发布。特别提醒,本文中有部分文本由「ChatYuan」生成,请君细心分辨。 ChatGPT 到底有多火?它已成为史上最快传播的应用,发布两个月后就有了 1 亿用户。实现同样的用户量,TikTok 需要近九个月,而 Instagram 用了两年多。 未来几年,微软将继续增加投资 Ch
机器之心
2023/03/29
1.3K0
首个中文版ChatGPT来了:大模型的中国元“Yuan”
BERT之后,GLUE基准升级为SuperGLUE:难度更大
过去一年来,机器学习模型在 NLP 领域很多语言理解任务上的表现都获得了极大提升。Elmo、BERT、ALICE、之前被称为 BigBird 的模型(现在叫做 MT-DNN)都取得了显著进展,OpenAI GPT 也有一种非常有效的方案,即将用简单的多任务在大量文本数据集上预训练的语言建模方法与将所得模型适应到下游应用的迁移学习技术结合起来。
机器之心
2019/05/13
1.3K0
BERT之后,GLUE基准升级为SuperGLUE:难度更大
推荐阅读
超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布
1.2K0
全面超越BERT、XLNet,中文最强NLP模型百度ERNIE2.0发布!
2K0
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
1.6K0
AI首次超越人类!腾讯、阿里的NLP模型,比你更懂中文
4410
全球最大AI巨量模型,参数2457亿炼丹16天专注中文,打造者绝对让你意外
4600
腾讯云在CLUE自然语言理解分类任务中勇夺第一
6870
超难NLP新基准SuperGLUE正式发布:横扫SOTA模型BERT勉强过关
2.5K0
OPPO登顶CLUE与MUGE,刷新中文自然语言理解与图文多模态双榜记录
6260
百度开源自然语言理解模型 ERNIE 2.0,16 个 NLP 任务中碾压 BERT 和 XLNet!
5120
用更少GPU完成更多计算量,中文巨量模型源1.0比GPT-3强在哪里?
1.4K0
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
7870
中文NLP福利!大规模中文自然语言处理语料
7.2K0
轻量型模型比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
5710
NLP推理与语义相似度数据集
1.9K0
自监督方法提升语言模型否定鲁棒性:引入NSPP及NSP变体,在九基准测试及CondaQA表现优异 !
990
这群工程师,业余将中文 NLP 推进了一大步
1.1K0
中文世界又多一个评测语言大模型能力的基准CUGE,覆盖17种主流NLP任务
1.4K0
做项目一定用得到的NLP资源【分类版】
2.2K0
首个中文版ChatGPT来了:大模型的中国元“Yuan”
1.3K0
BERT之后,GLUE基准升级为SuperGLUE:难度更大
1.3K0
相关推荐
超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档