首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

40种语言、9项推理任务,谷歌发布新的NLP基准测试Xtreme

大数据文摘出品 来源:VB 编译:曹培信、刘俊寰 目前,全球存在着超过6900种语言,这是自然语言处理研究者们的巨大噩梦。因为大多数语言都是数据稀疏的,研究者找不到足够多的数据来单独训练成熟模型。...这一基准测试的目标是促进人工智能多语言学习领域的研究,在这个领域,已经有大量工作研究了是否可以利用数据稀疏的语言结构来训练可靠的机器学习模型。...其中包括一些未被充分研究的语言,例如在印度南部、斯里兰卡和新加坡使用的达罗毗荼语系语言泰米尔语,主要在印度南部使用的泰卢固语和马拉雅拉姆语,以及在非洲使用的尼日尔-刚果语系斯瓦希里语和约鲁巴语。...其中,BERT对西班牙语的准确率为86.9/100,日语则只有49.2/100,要转换成非拉丁文字也十分困难,而所有的模型都很难预测到在英语训练数据中没有看到的远方语言的实体,比如,在印度尼西亚语和斯瓦希里语上的准确率分别为...总的来说,在模型和模拟环境中,英语和其它语言的表现之间仍然存在巨大差距,这也表明,跨语言迁移的研究潜力很大。” Xtreme基准测试的代码和数据已经在GitHub上开源,还有运行各种基线的示例。

70020

谷歌开源文本生成新方法 LaserTagger,直击 seq2seq 效率低、推理慢、控制差三大缺陷!

这意味着编辑操作可以⾼精度地并⾏进⾏预测,与顺序执⾏预测的⾃回归 seq2seq 模型相⽐,可以显着提⾼端到端的速度。...在所有任务 中,LaserTagger 的性能与使⽤⼤量训练示例的基于 BERT 的强⼤seq2seq 基线相当;并且在训练示例数量有限时,其结果明显优于该基线。...当在 100 万个示例的完整数据集上训练模型时,LaserTagger 和基于 BERT 的 seq2seq 基线模型均具有可⽐的性能,但是在 10,000 个或更少示例的⼦样本上进⾏训练时,LaserTagger...数据效率高 :即使仅使⽤⼏百或⼏千个训练示例进⾏训练,LaserTagger 也可以产⽣合理的输出。在实验中,seq2seq 基线模型需要成千上万个示例才能获得可比拟的性能。...而较⾼的推理速度使该模型可以插⼊现有技术堆栈中,并且不会在⽤户端增加任何明显的延迟;除此之外,改进的数据效率可以收集多种语⾔的训练数据,从⽽使来⾃不同语⾔背景的⽤户受益。 ?

93111
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    自然语言处理学术速递

    这项任务的重点是为爱尔兰语和马拉地语等资源相对匮乏的语言提供出色的翻译。...我们使用外部平行语料库作为额外训练的输入,对Indicatrans进行微调,这是一个针对英语->马拉地语的预训练多语言NMT模型。...在团队名称IIITT下,我们的系统在英语->马拉地语、爱尔兰语->英语和英语->爱尔兰语中分别排名1、1和2。...我们以一个基线实验来结束我们的论文,该实验构建了一个预测句子语义相似性的系统。由于大量的训练注释(116 956),该模型的性能明显优于平均注释者(人的相关系数分别为0,92和0,86)。...在本文中,我们介绍了第一个意大利语剪辑模型(CLIP-意大利语),该模型在140多万对图像文本上进行训练。结果表明,CLIP-意大利语在图像检索和Zero-Shot分类任务上优于多语言CLIP模型。

    32410

    覆盖40种语言:谷歌发布多语言、多任务NLP新基准XTREME

    其中一些是 under-studied 的语言,如达罗毗荼语系中的泰米尔语(印度南部、斯里兰卡和新加坡)、泰卢固语和马拉雅拉姆语(主要集中在印度南部)以及尼日尔-刚果语系中的斯瓦希里语和约鲁巴语(非洲)...所选用的这些模型都有一个共同特点,就是已经过多种语言的大量数据的预训练。...三者在 MLQA 和 TyDi QA 任务上的表现情况也是如此; 利用机器翻译的基线方法,在翻译训练数据或测试数据时,都会表现出强大的性能。...研究者还发现,模型很难预测出英语训练数据中未出现的 POS 标记,这表明这些模型难以从用于预训练的大量未标记数据中学习其他语言的语法。...对于实体命名识别,模型预测最为不准确的是与英语差异最大的几种语言——其在印尼语和斯瓦西里语中的准确度为 58.0 和 66.6,相比之下,葡萄牙语和法语为 82.3 和 80.1。

    1.2K30

    不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型

    举例而言,一个语系中将涵盖印度境内使用的孟加拉语、印地语、马拉地语、尼泊尔语、泰米尔语和乌尔都语等多种语言。研究者系统性地挖掘每个语系中所有可能的语言对。...如上述印度境内所使用的语言中,印地语、孟加拉语和泰米尔语是雅利安语的桥梁语言。然后,研究者挖掘这些桥梁语言所有可能组合的并行训练数据。...举例而言,如果想要训练一个汉语 - 法语翻译模型,则应该首先训练一个法语到汉语的模型,并翻译所有的单一法语数据以创建合成的反向翻译汉语。...举例而言,如果一个模型在法语 - 英语和德语 - 瑞典语语料库中进行训练,则可以实现法语和瑞典语的零样本转译。...研究者从具有 24 个编码器层和 24 个解码器层的 12 亿个参数基线开始,然后将以英语为中心的模型与 M2M-100 模型进行比较。

    41510

    ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语记忆实现高性能NMT

    机器之心专栏 机器之心编辑部 在 ACL 2021 的一篇杰出论文中,研究者提出了一种基于单语数据的模型,性能却优于使用双语 TM 的「TM-augmented NMT」基线方法。...值得注意的是,即使不使用额外单语数据,这种方法也要优于使用双语TM的 「TM-augmented NMT」基线方法。由于能够利用单语数据,该研究还证明了所提模型在低资源和领域适应场景中的有效性。...在训练期间,该研究借助翻译参考的最大似然改进了翻译模型和检索模型。 检索模型 检索模型负责从大型单语 TM 中为源语句选出最相关的语句。...该研究使用双语对训练目标到源的 Transformer Base 模型,并使用得到的模型翻译单语语句以获得额外的合成并行数据。...至于训练成本,模型 #4 和模型 #5 每个训练 step 的平均时间成本分别是基线的 2.62 倍和 2.76 倍,与传统的 TM-augmented 基线相当(模型 #2 是 2.59 倍)( 全部使用两个

    80030

    【源头活水】mBART:多语言翻译预训练模型

    - 随机:作为额外的基线,我们还将包括与每个翻译任务的模型随机初始化而不进行预训练的比较。...在没有任何预训练的情况下,我们的模型过拟合,表现比基线差很多。然而,仅仅经过25K步(5%的训练),两个模型的表现都超过了最佳基线。...我们的预训练模型始终优于基线模型,但随着bi-text数量的增加,特别是在10M句子对之后,差距会缩小。...对于这两个数据集,随机初始化Doc-MT失败,结果比句子级模型差很多。如此大的性能差距表明,预训练对文档级性能至关重要。...我们的模型在所有方向上都比非预训练模型取得了很大的收益,超过现有方法完全失败的异构对(En-Ne,En-Si)上明显优于XLM。对于En-De,我们的模型与XLM和MASS的表现也相当出色。 ?

    4.5K30

    资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)

    XNLI 语料库聚焦于开发数据和测试数据,因此构建它的目的是评估跨语言句子理解,其中模型必须在一种语言中训练,在其他不同的语言中测试。...尽管该对齐方法不敌该研究使用的机器翻译基线模型,但该对齐方案的性能也很有竞争力。...这些模型往往是在单语数据(通常是英语)上训练的,无法直接用于其他语言。由于收集每种语言的数据不切实际,因此研究者对跨语言理解(XLU)和低资源跨语言迁移的兴趣越来越大。...此外,我们还提供了多个多语言句子理解的基线模型,其中两个基于机器翻译系统,还有两个使用平行数据来训练对齐多语言词袋模型和 LSTM 编码器。...我们发现 XNLI 是一个实际且有难度的评估套件,在直接翻译测试数据任务上获得了可用基线模型中的最优表现。 ? 本文为机器之心编译,转载请联系本公众号获得授权。

    1.8K30

    ​基于 YOLOv8 和计算机视觉 CV 的实时识别系统!

    如今开发的许多应用程序都在解决这些挑战,但本地社区和其他受限制的语言群体可能发现使用它们存在困难。马拉雅拉姆语是一种在印度喀拉拉邦使用的达罗毗荼语系语言,是印度官方认定的二十二种语言之一。...主要的挑战之一是马拉雅拉姆语手语数据的有限或无法获取,且在这方面没有付出足够的努力。为此,本文提出了一种利用先进的深度学习和计算机视觉技术对马拉雅拉姆语手语进行识别的方法。...该模型通过从输入视频帧中提取关键组成部分,并基于神经网络比较进行手势分类,实现了有效的沟通。本文提出了一种识别视频中的马来语手语字符并易于解释的模型。...新模型继承了预训练模型对在自身训练过程中未遇到的新数据的泛化能力。这导致了在多种任务和情境下的性能提升。现在,使用YOLOv8格式的增强数据集用预训练的YOLOv8模型进行训练。...该模型的适应性也延伸到教育环境,为使用马拉雅拉姆手语的群体提供一个包容的学习环境。此外,它还可能在开发针对马拉雅拉姆手语社区独特沟通需求创新技术方面发挥关键作用。

    50210

    自然语言处理学术速递

    我们将BloomNet与一组不同的基本基线和强基线进行比较,发现我们的模型比所有实验基线的性能都好。...特别是,我们研究了在我们的小训练数据集上微调几个最先进的预训练语言模型的性能。结果表明,通过预先训练的语言模型和精心调整的超参数,我们在这项任务上已经达到或略优于最先进的系统。...平行语料库提供并公开提供,包括以下说明:英语$\leftrightarrow$爱尔兰语、英语$\leftrightarrow$马拉地语和台湾手语$\leftrightarrow$繁体中文。...训练数据分别由8112、20933和128608段组成。马拉地语和英语还有其他单语数据集,由21901段组成。这里给出的结果是基于总共八个团队的参赛作品。...使用BLEU计算最大系统性能,以下为36.0(英语-爱尔兰语)、34.6(爱尔兰语-英语)、24.2(英语-马拉地语)和31.3(马拉地语-英语)。

    42310

    ​对比学习还能这样用:字节推出真正的多到多翻译模型mRASP2

    AI科技评论报道 作者 | 潘小小 编辑 | 陈大鑫 大家都知道目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练。...值得提一句,读者最终使用对齐增强方法的时候,可以只采用(a)的做法或者只采用(b)的做法。...对比多语言翻译系统的基线模型m-Transformer, mRASP2在表中的10个方向上都有显著的提升。相比一些预训练+微调的工作,mRASP2也在大部分方向上超过了它们的效果。...在有监督(英语相关)方向上,mRASP2在大多数方向上都超过了其他工作,其中包括单向模型和预训练+微调的模型。 无监督翻译方向 “无监督方向”指的是:至少一端在训练阶段只见过单语语料。...mRASP2在无监督方向上远远超过基线模型m-Transformer。表中展示的是tokenized BLEU。

    71960

    计算语言顶会ACL 2018最佳论文公布!这些大学与研究员榜上有名

    我们的注意力机制增强了基线循环神经网络,而不需要额外的可训练参数,从而使注意力机制的额外计算成本最小化。我们已证实,根据统计数据,该模型优于许多基线模型,包括基于 LSTM 的语言模型。...这种注意力机制无需引入额外的参数,但预测效果优于很多基线模型。....,2007)的子集(sections 000-760)。 ? 图 1:我们的数据集中一个包含预设触发语的实例。 4 学习模型 本章介绍了我们基于注意力的模型。...MFC 指最常见的基线,LogReg 是 logistic 回归基线。LSTM 和 CNN 对应强大的神经网络基线模型。...表 4:在 Giga_also 数据集上 LSTM 基线模型与注意力模型(WP)正确预测(cor.)和错误预测(inc.)的列联表。

    41100

    ubuntu输入法ibus

    人生的旅程就是这样,用大把时间迷茫,在几个瞬间成长。——瑞卡斯 IBus 全称 Intelligent Input Bus是下一代输入法框架(或者说“平台”)。...项目现托管于 Google Code - https://code.google.com/p/ibus/ 此项目包含了世界多数语言的文字输入需求——由世界多个国家开发者维护。...sudo apt-get install ibus-m17n 这个软件包包含了几乎所有除了英语,中日韩等的其他输入法,如:阿拉伯语,阿姆哈拉语,阿萨姆语,阿萨帕斯坎诸语,奥杰布瓦语,白俄罗斯语,波斯语,...藏语,傣语,丹麦语,迪维希语,俄语,法语,梵语,高棉语,格鲁吉亚语,古典希腊语,古吉拉特语,哈萨克语,捷克语,卡纳达语,克里语,克罗地亚语,克什米尔语,老挝语,马拉提语,马拉雅拉姆语,孟加拉语,缅甸语,...如果您使用的是 fcitx,请安装相应的包。 sudo apt-get install fcitx-m17n

    38410

    用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务

    智能体使用大型语言模型构建技能关系图,通过图上的搜索得到任务规划。实验部分,Plan4MC 目前可以完成 24 个复杂多样任务,成功率相比所有的基线方法有巨大提升。...操作类技能使用 PPO 算法结合 MineCLIP 模型的内在奖励训练。合成类技能仅使用一个动作完成。在未修改难度的 MineDojo 模拟器上,学习全部技能仅需与环境交互 6.5M 步。...在关于规划的研究中,作者引入了利用ChatGPT做交互式规划的基线方法Interactive LLM,以及两个消融实验:技能执行失败时不再重新规划的Zero-shot方法和使用一半最大交互步数的1/2-...为解决探索困难和样本效率的问题,作者使用内在奖励的强化学习训练基本技能,利用大语言模型构建技能图进行任务规划。...结束语:强化学习技能 + 大语言模型 + 任务规划有可能实现 Daniel Kahneman 所描述的 System1/2 人类决策模型。

    66820

    懂「印度方言」的多语言机翻模型挑战0资源翻译,论文已被ACL2021接收

    作者用微调+剪枝的方法为新语对分配专属的子网络。 ? 相比多语言基线模型,LaSS表现更优,使用更少的训练步数达到了双语模型的结果; LaSS在原有语言对的表现下降更平滑。...当LaSS在新语对的表现和双语模型持平时,在其他语言对的表现几乎不变,而基线模型则有明显下降的趋势。...这是因为LaSS只选择与该语对相关的参数进行更新,减少了对其他语对的影响,而基线模型更新所有的参数,更容易造成「灾难性遗忘」(catastrophic forgetting)。...零资源翻译场景下能改善目标偏离 零资源翻译(zero-shot translation)指的是模型在训练时从未接触过某个语向的语料,而该语向的两边语言都各自单独出现过。...例如,模型在训练阶段接触过 Fr→En 和 En→Zh 语向的翻译,但没有接触过 Fr→Zh 语向的翻译。

    49830

    自然语言处理学术速递

    我们进一步微调DistilBERT进行比较,发现它优于所有最先进的模型。我们建议未来的研究至少使用MLP基线来分析结果。我们为此类基线的设计和训练提供建议。...训练模型仅从16次审查——而无提示基线的准确率仅为65%左右。...--以马拉提语为例 链接:https://arxiv.org/abs/2109.03552 作者:Saurabh Gaikwad,Tharindu Ranasinghe,Marcos Zampieri...MOLD是第一个为马拉地语编译的同类数据集,从而为低资源印度-雅利安语的研究开辟了一个新领域。...据我们所知,我们为西班牙语提供了第一个基于生物医学和临床转换器的预训练语言模型,旨在促进母语西班牙语NLP在生物医学中的应用。我们的模型出版后将免费提供。

    91230

    谷歌开源首个「方言」数据集:让机器翻译更地道

    最后,为这项任务提出了一些基线模型,并为研究人员如何训练、评估和比较自己的模型提供指导建议,数据集和评估代码已开源。...Few-Shot泛化 大多数现代机器翻译系统都经过数百万或数十亿翻译样本的训练,输入数据包括英语输入句及其相应的葡萄牙语翻译。 然而,绝大多数可用的训练数据并没有说明翻译的地区差异。...机器翻译模型需要根据少量标记过的样本(即范例)中显示的语言模式,来识别出其他未标记训练样本中的相似模式。模型需要通过这种方式进行泛化,从而生成模型中没有明确指定区域的「地道」翻译结果。...根据 MQM 评估者对几个基线模型翻译结果的评分,可以发现 BLEURT 与人类判断具有最好的相关性,并且该相关性的强度(0.65 Pearson 相关系数,ρ)与标注者间一致性(0.70组内相关性)相当...基于 MQM 的人类评估,基线方法都表现出一定的localize葡萄牙语输出的能力,但是对于中文普通话,大多没有利用目标地区的知识来生成优秀的当地翻译结果。

    92320

    自然语言处理学术速递

    然而,当面对输入文本中的一些干扰时,这些QA模型可能会失败,并且它们进行多跳推理的可解释性仍然不确定。以往的对抗性攻击通常对整个问题句进行编辑,这对测试基于实体的多跳推理能力影响有限。...我们在ELI5(Reddit用户提出的问题数据集)上训练和评估我们的模型。我们的最佳模型是通过使用行为克隆对GPT-3进行微调,然后对经过训练以预测人类偏好的奖励模型进行拒绝抽样来获得的。...本文介绍了英语、印地语和马拉地语的HASOC子词条。该数据集是从Twitter收集的。此子机架有两个子任务。任务A是一个针对所有三种语言的二进制分类问题(仇恨而非攻击性)。...任务A的最佳分类算法的性能为F1,马拉地语、印地语和英语分别为0.91、0.78和0.83。本概述介绍了任务和数据开发以及详细结果。提交竞赛的系统应用了多种技术。...在本文中,我们描述了十二种印度语言的两个同源数据集的创建,即梵语、印地语、阿萨姆语、奥利亚语、卡纳达语、古吉拉特语、泰米尔语、泰卢固语、旁遮普语、孟加拉语、马拉地语和马来语。

    56820

    支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇

    本文就提出了一个方法简单但同样强大的语言转换模型,与基线方法相比自然度和清晰度毫不逊色,相似度更是大大提升。...在过程中不训练显式转换模型,而是简单地使用了 K 最近邻回归。...先来看人声转换,将 KNN-VC 应用于 LibriSpeech 数据集中未见过的源说话者和目标说话者。 KNN-VC 还支持了跨语言语音转换,比如西班牙语到德语、德语到日语、汉语到西班牙语。...唯一需要训练的组件是声码器。 对于 WavLM 编码器,研究者只使用预训练的 WavLM-Large 模型,并在文中不对它做任何训练。对于 kNN 转换模型,kNN 是非参数,不需要任何训练。...对于基线方法,他们对每个目标话语的说话者嵌入求平均。 下表 1 报告了每个模型的清晰度、自然度和说话者相似度的结果。

    30740

    语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

    机器之心报道 编辑:蛋酱 伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型...在主观评估中,BASE TTS 的表现优于公开的 LTTS 基线模型。 2、展示了如何将 BASE TTS 扩展到更大的数据集和模型规模,以提高其为复杂文本呈现适当韵律的能力。...研究者对文本和语音使用单独的位置嵌入和单独的预测头。他们从头开始训练了自回归模型,而不对文本进行预训练。...然而,对于西班牙语,基于 WavLM 的模型在统计学上显著优于 VQ-VAE 模型(VQ-VAE:73.3 vs WavLM:74.7)。...请注意,英语数据约占数据集的 90%,而西班牙语数据仅占 2%。

    25010
    领券