首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >​对比学习还能这样用:字节推出真正的多到多翻译模型mRASP2

​对比学习还能这样用:字节推出真正的多到多翻译模型mRASP2

作者头像
AI科技评论
发布于 2021-07-27 06:48:34
发布于 2021-07-27 06:48:34
7550
举报
文章被收录于专栏:AI科技评论AI科技评论

AI科技评论报道

作者 | 潘小小

编辑 | 陈大鑫

大家都知道目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练。这样的系统通常在英语相关的语向(有监督语向)上表现不错,而在非英语方向(零资源方向)的翻译效果不佳。

针对这个问题,字节跳动的研究者们近期提出了mRASP2,通过引入对比学习,辅以对齐增强方法,将单语语料和双语语料囊括在统一的训练框架之下,旨在充分利用语料,学习更好的语言无关表示,并由此提升多语言翻译性能。

实验结果表明mRASP2在有监督、无监督、零资源的场景下均取得翻译效果的提升。其中有监督场景平均提升 1.98 BLEU,无监督场景平均提升 14.13 BLEU,零资源场景平均提升 10.26 BLEU。

论文地址:https://arxiv.org/abs/2105.09501

接下来本文从三个方面介绍分析 mRASP2:

1、mRASP2 的背景和动机;

2、mRASP2的方法;

3、mRASP2 的实际效果和分析。

1

研究背景和动机

随着全球化进程不断加快,人们在进行外交、外贸、旅游等活动时都离不开跨语言交际。然而传统的人工翻译由于其价格昂贵、实时性差等缺陷,只适用于少部分场景。机器翻译的出现打破了这些限制,大大扩充了翻译的应用场景。现代机器翻译模型通过神经网络模型把输入的句子转化为另一种语言的句子。

目前主流的神经机器翻译是基于“编码器-解码器”结构,如下图所示,编码器将源语言的句子编码成为连续空间中的某个向量,而解码器从这个向量出发去生成目标语言的句子。

“编码器-解码器”的翻译过程和人类翻译过程很类似:对于人类来说,将一句话从一个语言翻译成另一个语言,也是先将原句的意思看懂,在脑子里形成一个句意的概念,再从句意出发,输出成另一种语言的文字。这样带来的效果是,意思相近的句子经过编码器后,其向量表示会分布在连续空间的相邻位置。

比如下图中的"Mary is loved by John"和"John loves Mary"这两句话是相同的意思,因此它们在编码器输出后的高维空间中,向量的分布比较接近;而"Mary loves John"的意思相反,因此其向量的分布就和之前两句话相距较远。

传统的机器翻译只能支持单个语向,而多语言机器翻译的模型有能力同时支持多个翻译语向。多语言机器翻译由于其低部署成本、有迁移学习效果等优点,在近几年引起研究者和工程师们的广泛关注。

作为mRASP2的前置工作,mRASP主要提出了“机器翻译预训练”的思路来达到高效利用不同语对的语料的目的。mRASP提出了基于平行词典的对齐替换(RAS),额外引入了词级别的对齐信息。实验证明,RAS的确拉近了同义词的高维表示,也间接拉近了同义句的高维表示。mRASP2在此基础上引入对比学习拉近同义句表示,显式地拉近同义句表示的距离。

在实际情况中,单语语料的数量远远大于平行语料的数量。对于传统的单向机器翻译模型而言,可以通过回译技术(back-translation)利用单语语料来增强翻译效果。而对于多语言翻译来说,虽然回译技术(back-translation)的方法依然有效,但是流程长且繁琐。mRASP2将单语双语放在统一框架下训练,充分且简单地利用广泛存在的各种语料。

2

模型结构和细节

mRASP2在多语言翻译的multilingual Transformer模型之上,在编码器(Encoder)端的顶部加入了对比学习任务。

这样的设计是基于一个经典的假设:不同语言中同义句的编码后的表示应当在高维空间的相邻位置。因为不同语言中的同义句对应的句意是相同的,也就是上文提到的“编码”过程的输出是相同的。比如“早上好”和“Good morning”这两句话对于懂中文和英文的人来说,理解到的意思是一样的,这也就对应了“编码后的表示在高维空间的相邻位置”。

训练目标设计

mRASP2在传统的交叉熵损失(cross entropy loss)的基础上,加入了对比损失(contrastive loss),以多任务形式进行训练。图中橙色的箭头指示的是传统使用交叉熵损失(Cross Entropy Loss, CE loss)训练机器翻译的部分;黑色的部分指示的是对比损失(Contrastive Loss, CTR loss)对应的部分。

  • 交叉熵损失函数(CE loss)

具体的损失函数如下:

交叉熵损失函数的目的就是使目标端输出的分布与真实分布尽可能一致。也就是说,对应目标输出的每个位置的真实分布(id_0: 0.0, id_1: 0.0, ......, id_true: 1.0, ......, id_N: 0.0),模型输出的token概率分布要尽可能接近该真实分布。注意每个位置的交叉熵损失是独立的,因此CE loss是词级别(token-level)的。

  • 对比损失函数(CTR loss)

对比学习最早被应用在图像领域,通过缩小与正样本间的相似度/距离,扩大与负样本间的相似度/距离,使得正样本与锚点之间的距离远远大于负样本与锚点之间的距离。显然,对于自然语言处理任务来说,对比损失是序列级别(sequence-level)的。

在mRASP2的训练过程中,对训练数据里的每一个样本点(即一个平行句对),它的“锚点”是该样本点的源端句子的向量表示,即公式中的R(x^i),“正例”是该样本点的目标端句子的向量表示,即公式中的R(x^j),“负例”是同一个数据批次(batch)下其他样本点的目标端句子的向量表示的集合,即公式中的R(y^j)。具体的损失函数如下,其中sim(.,.)是相似度函数,在本文中,作者使用的是比较经典的余弦相似度。

每个句子的向量表示R(*)是编码器最后一层输出的隐变量(hidden states)的平均向量。

文中的

是“温度”,它是一个重要的超参数,控制着模型区分正负例的难度,温度越低,难度越小。在本文的实验中,温度被设置为0.1。

多任务训练

在mRASP2的训练过程中,作者将两部分损失函数结合起来进行多任务训练,最终的损失函数如下:

  • |s|指的是序列的平均长度,因为CE loss是词级别(token-level)的,而CTR loss是序列级别(sequence-level)的,因此两者的绝对数值之间存在比例关系,其乘数即序列的平均长度|s|。
  • λ是用于平衡两个损失函数的因子

词对齐数据增强方法

词对齐数据增强方法 ,又称对齐增强(Aligned Augmentation, AA),是从mRASP的随机对齐变换(Random Aligned Substitution, RAS)方法发展而来的。

如图所示,图(a)表示了对平行语料的增强过程,图(b)表示了对单语语料的增强过程。其中,图(a)中原本的英语单词被替换成中文对应的单词;而图(b)中原本的中文单词被分别替换成英文、法语、阿拉伯语、德语。

mRASP的RAS等价于第一种替换方式,它只要求提供双语的同义词词典;而第二种替换方式需要提供包含多种语言的同义词词典。值得提一句,读者最终使用对齐增强方法的时候,可以只采用(a)的做法或者只采用(b)的做法。

3

实际效果和分析

mRASP2的多语言翻译效果逼近或者超过单向模型当前最高水平;另外它还直接支持无监督翻译和零资源翻译。

作者将翻译的场景分为有监督方向、无监督方向、零资源方向。训练数据包括PC32: 包含32个英语相关语对的平行语料)和MC24(newscrawl单语语料,由21个在PC32中的语言,另外加上3个语言荷兰语(Nl), 波兰语(Pl), 葡萄牙语(Pt)组成。

有监督翻译方向

上表展示了mRASP2在有监督方向上的翻译效果。表中展示的是tokenized BLEU。对比多语言翻译系统的基线模型m-Transformer, mRASP2在表中的10个方向上都有显著的提升。相比一些预训练+微调的工作,mRASP2也在大部分方向上超过了它们的效果。其中,适应模块方法(Adapter)介于统一多语言模型和单向模型之间。对于英语->罗马尼亚语(En->Ro)方向,我们采取了和以往工作一样的操作:将罗马尼亚语的特殊符号去掉。

在有监督(英语相关)方向上,mRASP2在大多数方向上都超过了其他工作,其中包括单向模型和预训练+微调的模型。

无监督翻译方向

“无监督方向”指的是:至少一端在训练阶段只见过单语语料。在本实验中,荷兰语、葡萄牙语、波兰语(Nl, Pt, Pl)这三个语言都没有出现在平行句对中,我们仅仅是提供了这三个语种的单语语料。由此可见,英语<->荷兰语/葡萄牙语/波兰语这几个语向中,源端或者目标端是没在训练阶段出现过的,也就是说,这几个语种没有在训练阶段显式地和其他语言建立联系。

我们也研究了两端都只见过单语语料的情况:荷兰语<->葡萄牙语(Nl<->Pt)方向。对于英语->X方向和荷兰语<->葡萄牙语方向,m-Transformer和mRASP显然无法进行翻译,而mRASP2取得了不错的效果。

mRASP2在无监督方向上远远超过基线模型m-Transformer。表中展示的是tokenized BLEU。对于荷兰语<->葡萄牙语的方向,mRASP2仅仅依靠这两种语言的单语语料就取得了还不错的效果。表中的平均分数是除了荷兰语<->葡萄牙语(Nl<->Pt)之外的方向平均得到的。

上表展示了mRASP2在无监督方向上的优越翻译性能。实验结果表明:依靠多语言性能,mRASP2能同时实现多个方向的无监督翻译。

零资源翻译方向

在如今的机器翻译领域存在着一类零资源翻译的问题:当我们只有英语到其他语言之间的平行语料时,我们能否支持非英语语对之间的直接翻译?mRASP2通过引入对比学习,巧妙地做到了这一点。

上表展示了mRASP2在零资源方向上的效果,表中展示的是de-tokenized BLEU(https://github.com/alvations/sacremoses)。

表中的Pivot是桥接模型,其结果是我们由m-Transformer经过“X语言->英语->Y语言”的两步翻译得到的。注意荷兰语(Nl)在平行语料中没有出现过。

实验结果表明:mRASP2在零资源场景下表现卓越,甚至能够比肩很强的桥接模型。

对比学习起了什么作用

上表总结了mRASP2的几个关键技术点对最终效果的影响。其中mRASP只使用了平行句对和对齐增强;mRASP2 w/o MC24只使用了平行句对、对齐增强、对比损失;mRASP2 w/o AA只使用了平行句对、对比损失。

作者将mRASP2的关键技术点分为3个,分别是: (i) 对比损失函数 (ii) 词对齐数据增强方法 (iii) 单语语料,并且通过对比实验研究了这三个技术点的主要效果。主要结论如下:

  1. 对比学习并不会降低有监督场景的性能,并且对零资源场景下的翻译性能有重大提升:对比1和3或者2和4,加入对比损失函数后,有监督方向的效果基本持平,而零资源方向提升了接近10个BLEU
  2. 单语语料的引入对所有场景的翻译性能都有明显提升:对比4和5,加入单语语料之后,mRASP2可以很好地支持无监督方向。

由此我们可以看出,对比学习的作用主要体现在:在不影响其他翻译方向的前提下,提升了零资源方向的翻译效果。

可视化: 对比学习能更好地拉近多语言表示对齐语义空间

作者从ted测试集过滤构建了15个语种的平行数据集Ted-M,共2284组,然后获得这些同义句在不同语言的语义空间中的向量后,用T-SNE降维,并且画出了其分布,如下图所示。可以直观地看出,mRASP2有效地对齐了不同语言的语义空间。

上图是T-SNE降维后的二维核密度分析的分布图。蓝色的线是英语,橙色的线是日语,绿色的线是德语。这张图表明了句意的表示被mRASP2拉近了。

Ted-M对应的2284组同义句的散点图如下图所示,每一个点都代表一个句子。图中画出了4组同义句的点(id分别为1, 100, 1200, 2000),可以看出德语、日语和英语这三种语言的同义句几乎是完全重合在一起的。

上图是多语言平行语料Ted-M的二维散点图。我们可以看出同义句在不同语言(英、日、德)中的表示基本重叠在一起。图例中的数字代表的是同义句的id。

其中id=1, 100的同义句组如下:

4

总结

本文主要介绍了mRASP2,该工作提出引入对比学习来增强多语言翻译模型。该方法简洁优雅,在广泛场景下取得了明显的性能提升,可以大大缓解低资源语种训练数据不足的问题。

该算法即将在字节跳动的火山翻译系统中落地。

文末附上传送门

论文:https://arxiv.org/abs/2105.09501

代码:https://github.com/PANXiao1994/mRASP2

火山翻译在线体验:http://translate.volcengine.cn

可快速得到任意机翻模型的mRASP:

https://zhuanlan.zhihu.com/p/352583626

手把手教你用mRASP快速得到任意翻译模型:

https://zhuanlan.zhihu.com/p/353070757

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器翻译界的BERT:可快速得到任意机器翻译模型的mRASP
今天给大家介绍EMNLP2020的一篇关于多语言翻译新范式的工作multilingual Random Aligned Substitution Pre-training (mRASP)[1],核心思想就是打造“机器翻译界的BERT”,通过预训练技术再在具体语种上微调即可达到领先的翻译效果,其在32个语种上预训练出的统一模型在47个翻译测试集上取得了全面显著的提升。
godweiyang
2021/04/08
1.8K0
机器翻译界的BERT:可快速得到任意机器翻译模型的mRASP
【金猿技术展】多语言预训练框架——mRASP
该技术由火山引擎申报并参与“数据猿年度金猿策划活动——2020大数据产业创新技术突破榜榜单及奖项”评选。
数据猿
2021/01/20
7510
【金猿技术展】多语言预训练框架——mRASP
业界 | 微软提出新型通用神经机器翻译方法,挑战低资源语言翻译问题
作者:Hany Hassan Awadalla 机器之心编译 参与:Nurhachu Null、路 近日微软发布博客,提出一种半监督通用神经机器翻译方法,解决低资源语言机器翻译的问题,帮助解决方言和口语机器翻译难题。该研究相关论文已被 NAACL 2018 接收。 机器翻译已经成为促进全球交流的重要组成部分。数百万人使用在线翻译系统和移动应用进行跨越语言障碍的交流。在近几年深度学习的浪潮中,机器翻译取得了快速进步。 微软研究院近期实现了机器翻译的历史性里程碑——新闻文章中英翻译达到人类水平。这一当前最优
机器之心
2018/06/12
1.2K0
CALMS:多语言摘要中的信息抽取与共享 | ​ACL 2021 Findings
在快节奏的生活中,人们往往没有耐心阅读长篇大论,而是希望能够通过简短的文字迅速掌握文章的重点信息,从而判断是否有必要详细阅读。因此不管是在新闻推送还是在论文撰写,为文章提取一个简明扼要的摘要都是十分重要的。以往这项工作都是由文章作者或者专门的编辑进行,而现在,人们可以通过 AI 模型自动为文章提供摘要,大大解救了为总结全文而绞尽脑汁的作者编辑们。
AI科技评论
2021/08/25
6370
CALMS:多语言摘要中的信息抽取与共享 | ​ACL 2021 Findings
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 18 个在机器翻译任务上曾取得 SOTA 的经典模型。 第 1 期:RNNsearch、Multi-task、attention-model
机器之心
2023/03/29
1.1K0
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)
跨语言嵌入模型的调查
注意:如果您正在查找调查报告,此博客文章也可作为arXiv上的一篇文章。
DEXIN
2018/02/06
7.1K0
跨语言嵌入模型的调查
谷歌开源首个「方言」数据集:让机器翻译更地道
---- 新智元报道   编辑:LRS 【新智元导读】数据集包含葡萄牙语和汉语普通话。 虽然全中国的人都在说汉语,但具体到各地的方言却略有不同,比如同样是小巷的意思,「胡同」一开口就知道是老北京了,而到了南方则叫「弄」。 这种细微的地域性差异反应在「机器翻译」任务上,就会显得翻译结果不够「地道」,而目前几乎所有的机器翻译系统都没有考虑地区性语言(即方言)的影响。 而在世界范围内也存在这种现象,比如巴西的官方语言是葡萄牙语,跟欧洲的葡萄牙语之间也有一些地域性差异。 最近谷歌发布了一个全新的,可用于Fe
新智元
2023/02/28
1K0
谷歌开源首个「方言」数据集:让机器翻译更地道
Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译
【新智元导读】Facebook试图将机器翻译的成功扩展到低资源语言对,研究了在没有任何平行数据的情况下,实现无监督的机器翻译。他们提出的模型有效地学习了在不使用任何标记数据的情况下进行翻译。 论文下载链接:https://arxiv.org/pdf/1711.00043.pdf 原文来源:arxiv 作者:Guillaume Lample、Ludovic Denoyer、Marc’Aurelio Ranzato 「雷克世界」编译:嗯~阿童木呀、多啦A亮 相信大家都知道,最近在机器翻译领域取得了令人印象深刻的
新智元
2018/03/21
9790
Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译
无需依赖英语中介,FB发布可翻译100种语言的AI模型
不管你在世界的哪个地方,美国、巴西、法国或者亚洲的婆罗洲岛,借助机器翻译,谷歌和Facebook这类软件都可以把平台上的几乎任何文字内容都翻译成当地语言。
大数据文摘
2020/10/30
1.1K0
无需依赖英语中介,FB发布可翻译100种语言的AI模型
【源头活水】mBART:多语言翻译预训练模型
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/04/30
4.7K0
【源头活水】mBART:多语言翻译预训练模型
学界 | FAIR新一代无监督机器翻译:模型更简洁,性能更优
选自arXiv 作者:Guillaume Lample等 机器之心编译 参与:张倩、路 近日,FAIR 研究人员提出两种机器翻译模型的变体,一种是神经模型,另一种是基于短语的模型。研究者结合了近期提出
机器之心
2018/06/08
1.1K0
开源AltDiffusion-m18 ,18种语言文图生成all in one
---- 新智元报道   来源:智源研究院 【新智元导读】国内首个支持18种语言的文图生成模型AltDiffusion-m18来了。 当前,非英文文图生成模型选择有限,用户往往要将 prompt 翻译成英语再输入模型。这样不仅会造成额外的操作负担,并且翻译过程中的语言文化误差,会影响生成图片的准确性。 智源研究院 FlagAI 团队首创高效训练方式,使用多语言预训练模型和 Stable Diffusion 结合,训练多语言文图生成模型 —— AltDiffusion-m18,支持18种语言的文图生成
新智元
2023/05/09
3520
开源AltDiffusion-m18 ,18种语言文图生成all in one
学界 | 无监督神经机器翻译:仅需使用单语语料库
选自arXiv 机器之心编译 参与:路雪、李泽南、蒋思源 神经机器翻译近期取得很大成功,但缺乏双语数据的语言对很难基于现有方式训练出好的机翻系统。近日,有研究者提出一种无监督新方法,无需使用平行语料库
机器之心
2018/05/10
1.1K0
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型
在过去的几年里,由于神经机器翻译(NMT)的发展,机器翻译(MT)系统的质量得到了显著提升,打破了世界各地的语言障碍。但 NMT 的成功很大程度上要归功于有监督的训练数据。那么,数据较少甚至没有数据的语言该怎么办呢?多语言 NMT 是一种有效的解决方法,它有一种归纳偏见,即「来自一种语言的学习信号应该有助于提高其他语言的翻译质量」。
机器之心
2019/10/15
6300
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型
百分点认知智能实验室出品:机器翻译是如何炼成的(下)
在“机器翻译是如何炼成的(上)”的文章中,我们回顾了机器翻译的发展史。在本篇文章中,我们将分享机器翻译系统的理论算法和技术实践,讲解神经机器翻译具体是如何炼成的。读完本文,您将了解:
数据猿
2020/03/05
6520
150亿参数大杀器!Facebook开源机器翻译新模型,同传人员或失业
当把中文翻译成法文时,以前最好的多语种模型的方式是把中文翻译成英文,把英文翻译成法文,因为英语的训练数据是最多的。
新智元
2020/10/29
1.3K0
【NLP】综述 | 跨语言自然语言处理笔记
跨语言自然语言处理是当下研究的热点。其中,跨语言词向量(Cross-lingual Word Embedding)可以帮助比较词语在不同语言下的含义,同时也为模型在不同语言之间进行迁移提供了桥梁。[Ruder et al., 2017] 详细描述了跨语言词向量学习方法和分类体系,将跨语言词向量按照对齐方式分为了基于词对齐、基于句子对齐、基于文档对齐的方法。其中基于词对齐的方法是所有方法的核心和基础。在基于词对齐的方法中,又有基于平行语料的方法,基于无监督的方法等。近些年,无监督方法成为研究热点。本文主要记录一些跨语言词向量的相关论文。
zenRRan
2019/12/10
2.2K0
【NLP】综述 | 跨语言自然语言处理笔记
ICLR 2022 | 字节提出:switch-GLAT,多语言非自回归机器翻译模型
作者丨宋珍巧 1 简介 多语言机器翻译旨在用一个模型实现多语向的翻译功能,从而可以减少线上需求的模型数量,同时提升低资源语言的翻译性能。目前已有的多语言模型大多基于 Transformer 建模,受限于翻译性能和推理速度。基于该问题,字节跳动人工智能实验室在 "switch-GLAT: Multilingual Parallel Machine Translation via Code-Switch Decoder" 这篇论文中提出一个叫做 switch-GLAT 的非自回归多语言翻译模型。 给定一个源语言
AI科技评论
2022/06/02
8670
ICLR 2022 | 字节提出:switch-GLAT,多语言非自回归机器翻译模型
机器翻译新时代:Facebook 开源无监督机器翻译模型和大规模训练语料
【导读】基于深度学习的机器翻译往往需要数量非常庞大的平行语料,这一前提使得当前最先进的技术无法被有效地用于那些平行语料比较匮乏的语言之间。为了解决这一问题,Facebook提出了一种不需要任何平行语料的机器翻译模型。该模型的基本思想是, 通过将来自不同语言的句子映射到同一个隐空间下来进行句子翻译。近日,Facebook开源了这一翻译模型MUSE: Multilingual Unsupervised and Supervised Embeddings,并提供预训练好的30种语言的词向量和110个大规模双语词典
WZEARW
2018/04/12
3.1K0
机器翻译新时代:Facebook 开源无监督机器翻译模型和大规模训练语料
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。
AI科技大本营
2021/11/25
7060
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
推荐阅读
机器翻译界的BERT:可快速得到任意机器翻译模型的mRASP
1.8K0
【金猿技术展】多语言预训练框架——mRASP
7510
业界 | 微软提出新型通用神经机器翻译方法,挑战低资源语言翻译问题
1.2K0
CALMS:多语言摘要中的信息抽取与共享 | ​ACL 2021 Findings
6370
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)
1.1K0
跨语言嵌入模型的调查
7.1K0
谷歌开源首个「方言」数据集:让机器翻译更地道
1K0
Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译
9790
无需依赖英语中介,FB发布可翻译100种语言的AI模型
1.1K0
【源头活水】mBART:多语言翻译预训练模型
4.7K0
学界 | FAIR新一代无监督机器翻译:模型更简洁,性能更优
1.1K0
开源AltDiffusion-m18 ,18种语言文图生成all in one
3520
学界 | 无监督神经机器翻译:仅需使用单语语料库
1.1K0
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型
6300
百分点认知智能实验室出品:机器翻译是如何炼成的(下)
6520
150亿参数大杀器!Facebook开源机器翻译新模型,同传人员或失业
1.3K0
【NLP】综述 | 跨语言自然语言处理笔记
2.2K0
ICLR 2022 | 字节提出:switch-GLAT,多语言非自回归机器翻译模型
8670
机器翻译新时代:Facebook 开源无监督机器翻译模型和大规模训练语料
3.1K0
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
7060
相关推荐
机器翻译界的BERT:可快速得到任意机器翻译模型的mRASP
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档