首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么机器翻译中使用的两个相同句子的流星得分不等于1?

机器翻译中使用的两个相同句子的流星得分不等于1的原因是因为流星得分(Meteor Score)是一种机器翻译质量评估指标,它不仅考虑了句子的准确性,还考虑了句子的流畅性和句子长度。

流星得分通过比较机器翻译结果与参考翻译之间的差异来评估翻译质量。它将机器翻译结果和参考翻译都转换为单词序列,然后计算两者之间的匹配程度。具体而言,流星得分考虑了以下几个因素:

  1. 精确匹配:机器翻译结果中与参考翻译完全相同的单词数量。
  2. 未匹配单词数量:机器翻译结果中没有在参考翻译中出现的单词数量。
  3. 词序错误:机器翻译结果中单词顺序与参考翻译不一致的数量。
  4. 词距错误:机器翻译结果中单词之间距离与参考翻译不一致的数量。

由于流星得分考虑了以上多个因素,因此即使两个句子相同,它们的流星得分也可能不等于1。这是因为机器翻译结果可能存在一些词序错误或词距错误,导致流星得分降低。

总之,流星得分是一种综合考虑了翻译准确性、流畅性和句子长度的评估指标,用于评估机器翻译的质量。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

机器翻译新突破,微软中英新闻翻译达人类水平

四大技术 我们知道,对于同一个意思人类可以用不同句子来表达,因此翻译并没有标准答案,即使是两位专业翻译人员对于完全相同句子也会有略微不同翻译,而且两个翻译都不错。...微软亚洲研究院副院长、自然语言计算组负责人周明表示:「这也是为什么机器翻译比纯粹模式识别任务复杂得多,人们可能用不同词语来表达完全相同意思,但未必能准确判断哪一个更好。」...这也是为什么科研人员在机器翻译上攻坚了数十年,甚至曾经很多人都认为机器翻译永远不可能达到人类翻译水平。...中英翻译和英翻译都使用初始并行数据来训练,在每次训练迭代过程,中英翻译系统将中文句子翻译成英文句子,从而获得新句对,而该句对又可以反过来补充到英翻译系统数据集中。...这个约束,应用于神经机器翻译训练过程,以鼓励系统基于这两个相反过程生成一致翻译结果。

76560
  • 序列模型3.6Bleu得分机器翻译得分指标

    示例 法语句子 :Le chat est sur le tapis 人工翻译参考 1 The cat is on the mat 人工翻译参考 2 There is a cat on the mat 实际上两个翻译都能准确地翻译了这个法语句子...参考二,单词 the 只出现了 1 次,取参考句子单词出现最大值,所以单词“the”计分上限是 2 所以机器翻译结果最终分数是 2/7 二元组 BLEU 得分 Bleu score on bigrams...考虑 BLEU 得分不仅只考虑单个单词,还应该考虑成对单词(相邻单词组)得分 示例 法语句子 :Le chat est sur le tapis 人工翻译参考 1 The cat is on the...n 元词组这一项 BLEU 得分,为了使用一个数值来评价一个机器翻译系统,需要将 数值整合进行计算。...即如果 机器翻译长度 大于 人工翻译输出长度 ,BP=1,而其他情况下 BP 定义会遵从一个式子,从而减小 Bleu 得分值。

    74220

    复述(paraphrasing):一种简单暴力预训练方式

    MARGE核心是“复述”。 所谓复述,就是一句话用另外一句话表达出相同意思。...文档相关性得分 由于MARGE涉及到两个文档之间相关性,所以先来介绍如何计算文档相关性得分。本文使用一个共享编码器g计算两篇文档余弦,把余弦值作为它们相关性,即: ?...由于相关性得分是一个标量,如何引入到Transformer是一个问题。本文提出把它加到自注意力计算,即: ?...总的来说,处理流程是:(1)把所有数据分成若干片段(shard);(2)在每个片段内使用相关性得分模型计算任意一对文档之间得分,取其中大于一个阈值文档对,即认为它们之间存在较强关联,反复进行上述操作...以上实验表明,MARGE在机器翻译、文本摘要、句子抽取等任务上表现很好,尤其是在无监督、跨语言设置下效果更佳显著,这体现了MARGE预训练方法是有效

    1.3K20

    NLP输出文本评估:使用BLEU需要承担哪些风险?

    如果我们想用机器学习来建立机器翻译系统,我们需要一个单独实数作为分数来填入我们损失函数。如果我们知道可能最高得分,我们就可以计算两者差。...使用相同指标,我们也可以得到 1 分。这样不是很好:我们需要通过一些方法告诉系统,我们正在训练第一个句子翻译结果)要比第二个句子好。...在 “I ate” 例子,输出语句为两个单词长度,最接近参考语句有四个词长度。这给了我们 0.36 惩罚因子,当我们 bi-gram 精度得分1 时,我们将最终得分降到了 0.36。...它是相当直观,你可以通过将机器翻译系统输出结果与参考翻译进行对比,来评估机器翻译系统输出,这在 NLP 具有极大影响力。...作为机器翻译系统终端用户,我可以接受前两个句子。虽然它们和参考翻译不完全相同,但它们理解意思是对。然而,第三句是完全无法接受,它完全改变了原文意思。

    1.2K30

    NLP 评价文本输出都有哪些方法?为什么要小心使用 BLEU?

    你要做一件事情是查看输出句子每一个单词,并为这个单词打分:如果它出现在了任意一个参考句子,就给它打 1 分;如果没有就打 0 分。...两个参考翻译句中都出现了单词个数除以输出句子单词个数——4,这句翻译得出分数为 1。到目前为止一切都很棒!但是下面这个句子呢? Three three three three....在「I ate」案例,输出句子长度为两个单词,而最接近参考翻译句是四个单词,我们得出了简短惩罚就是 0.36,这个值乘以我们二元精度分数 1 后,最终得分就降低为 0.36 了。...作为机器翻译系统一位终端用户,我其实认为前两个句子翻译得还可以。即便它们并不完全跟参考翻译一样,但是它们翻译出了句子意思。然而,第三个句子是完全不可接受,它完全改变了源语言句子意思。...即便第一个输出句子英文翻译明显比第二个句子要好,但是两个句子得到 BLEU 分数完全相同。这是不是很有意思?

    1.3K40

    神经网络机器翻译技术及应用(上)

    显见,system2得分会更高,因为它译文跟reference是完全匹配,system1匹配了一些片段,但是不连续。在计算BLEU得分时候,连续匹配词越多,得分越高。...源语言句子词,可以用一个one hot向量表示。所谓one hot就是,比如上例中文句子有8个词。哪个词出现了,就把这个词标为1,其他词标为0。...为什么不太合理,因为每一个词都是被作为相同权重去对待,那显然是不合理,这时候就提出了一个注意力机制,叫Attention。...还有第五个挑战 ,是机器翻译长期以来面临挑战,语篇翻译。大部分翻译系统现在所使用翻译方法都是基于句子,以句子作为单位,一个句子一个句子进行翻译。单看这三个句子翻译还可以接受。...在第一轮解码单独生成每个句子初步翻译结果,在第二轮解码利用第一轮翻译结果进行翻译内容润色,并且提出使用增强式学习模型来奖励模型产生更流畅译文。

    2.2K31

    Bleu:此蓝非彼蓝

    来源 像seq2seq这样模型,输入一个序列,输出一个序列,它评分不像文本分类那样仅仅通过label是否一样来判断算出得分。比如机器翻译,它既要考虑语义,还要考虑语序。...第一句是法语,需要把它翻译成英语;下面两个Reference句子是标准答案参考(下面告诉你这个怎么用),最后一句就是机器翻译句子。...modified recision 还以这个为例: 其中设count为机器翻译句子词在本句子中出现词数,count_clip为该句子词在Reference对应词出现词数(如果两个都有,则选取最大...其中Candidate就是机器翻译出来句子,即候选句子意思。 很明显,如果一个机器翻译出来句子和答案一样,那么它P1,P2,。。。Pn都会为1.0。...但是我们一般不会把n设为该句子长度,根据前辈和论文中经常用到值,我们得出P4是最合适。也就是到4-gram就可以了。 但是想想为什么要用到n-gram呢?

    79760

    百分点认知智能实验室出品:机器翻译是如何炼成(下)

    源语言与目标语言句子虽然语言、语序不一样,但具有相同语义,Encoder在将源语言句子浓缩成一个嵌入空间向量C后,Decoder能利用隐含在该向量语义信息来重新生成具有相同语义目标语言句子。...除了与每个编码器层相同两个子层之外,解码器还插入第三个子层(Encoder-Decoder Attention层),该层对编码器堆栈输出执行Multi-HeadAttention。...k转置组成一个键向量矩阵Kᵀ,把所有单词查询向量q组合在一起成为查询向量矩阵Q,这两个矩阵相乘得到注意力得分矩阵A=QKᵀ;然后,对注意力得分矩阵A求softmax得到归一化得分矩阵A^,这个矩阵在左乘以值向量矩阵...下图是20个词512个词嵌入维度上位置编码可视化。 ? 将句子每个词“位置编码”添加到编码器和解码器堆栈底部输入嵌入,位置编码和词嵌入维度d(model)相同,所以它俩可以相加。...表1给出了Deep Translator在联合国平行语料库官方测试集进行翻译质量评测结果,在英译、俄译中等行业领域主流翻译方向BLEU得分达到最佳水平。

    60510

    深度学习注意力机制

    Soft Attention模型 图2展示Encoder-Decoder框架是没有体现出“注意力模型”,所以可以把它看作是注意力不集中分心模型。为什么说它注意力不集中呢?...时输入句子单词“Tom”、“Chase”、“Jerry”对 来说注意力分配概率分布,那么可以用Target输出句子i-1时刻隐层节点状态 去一一和输入句子Source每个单词对应RNN隐层节点状态...目标句子生成每个单词对应输入句子单词概率分布可以理解为输入句子单词和这个目标生成单词对齐概率,这在机器翻译语境下是非常直观:传统统计机器翻译一般在做过程中会专门有一个短语对齐步骤,而注意力模型其实起相同作用...如果是常规Target不等于Source情形下注意力计算,其物理含义正如上文所讲,比如对于机器翻译来说,本质上是目标语单词和源语单词之间一种单词对齐机制。...但是Self Attention在计算过程中会直接将句子任意两个单词联系通过一个计算步骤直接联系起来,所以远距离依赖特征之间距离被极大缩短,有利于有效地利用这些特征。

    7.2K51

    独家科普:谷歌“汉译英”错误率降低60%是怎样算出来

    将旧机器翻译结果、新机器翻译结果(神经网络)、人工翻译结果、,这三份“考卷”,拿给熟练使用中英双语真人判卷员。 第四步。 ? 熟练使用中英双语真人判卷员,给每张考卷每个句子,进行打分。...出成绩了,旧机器翻译每个句子平均得分 3.694,新机器翻译得到 4.263 分,人工翻译得分 4.636 分。别忘了满分是 6 分哦。 第六步。...为什么用户兴奋,媒体兴奋,专家没那么兴奋?...翻译公司商鹊网CTO魏勇鹏告诉雷锋网: 这里面两个主要“陷阱”: 1、从3.6提升到4.2,和从4.2提升到4.6,这两个所需要付出努力程度,后者可能是前者10倍以上都不止,但Google就简单线性计算为缩小了...但是媒体报道标题“错误率降低 60%”,甚至某种语言是 “85%”,很容易让普通人以为蒸汽机革命来了……事实上,微软、百度等大公司之前也在翻译产品中使用神经网络技术,但没有引起大传播。

    1.5K70

    【AI再创纪录】机器翻译提前7年达到人类专业翻译水平!

    黄学东告诉新智元:“当机器翻译质量很差时候,使用BLEU评分还行,但是当机器翻译质量提高以后,就需要靠人类来评价。”...具体说,当100分是标准满分时,微软系统得分69.9,专业译者68.6,而众包翻译得分为67.6。 ?...由于NMT非常容易受到嘈杂训练数据、数据罕见事件以及总体训练数据质量影响,论文还讨论了数据选择和过滤方法,包括跨语言句子表示。...然而,机器翻译却是另一种类型的人工智能任务,即使是两位专业翻译人员对于完全相同句子也会有略微不同翻译,而且两个翻译都不是错。那是因为表达同一个句子“正确”方法不止一种。...周明表示:“这也是为什么机器翻译比纯粹模式识别任务复杂得多,人们可能用不同词语来表达完全相同意思,但未必能准确判断哪一个更好。”

    90770

    SFFAI分享 | 杨振:低资源神经机器翻译

    1是我们提出基于条件序列生成对抗翻译模型(BR-CSGAN)。该模型主要分为以下三个子模块: 1)生成器。根据源语言句子,生成器G致力于产生难以与人工翻译句子进行区分目标端句子。 2)判别器。...表示采样得到句子长度。判别器分别为这N条采样得到句子进行打分,对应中间状态最终得分是这N个打分平均值。因此,对于目标端长度为T句子,我们计算 ? 在句子得分值: ?...受最近取得巨大进展无监督跨语言词向量研究,无监督机器翻译研究者们猜想意义相同两个来自不同语言句子能够映射到同一个向量空间。...基于这个猜想,研究者们使用同一个编码器来编码不同语言,然后用相同或者独立解码器来进行解码。...为了将相同语义来自不同语言句子映射到同一个向量空间,本文令源语言和目标语言两个自编码器共享部分权重。具体说,两个编码器共享最后一层向量,两个解码器共享第一层向量。

    70520

    图解谷歌神经机器翻译核心部分:注意力机制

    但由于梯度爆炸/消失存在,但使用这种方法很难获取更长句子背后信息,导致翻译性能大幅下降。...比如上面说两个段落字,在看到这时候,你还能记得多少?能把它们翻译成英语吗? 除此之外,还有一个问题。在基于RNN模型,不管原始文本句子有多长,都会被压缩成一个固定长度向量。...与CNN相比,使用注意力机制RNN取得了非常好效果,直接带起了一波研究注意力机制热潮。 很快,注意力就出现在了神经机器翻译。...第三步:通过softmax层运行所有得分 我们将得分放到softmax函数层,使softmax得分(标量)之和为1。这些得分代表注意力分布。 ?...这是通过改变RNN权重和评分函数(如果有的话)来完成。 这些权重将影响编码器隐藏状态和解码器隐藏状态,进而影响注意力得分。 谷歌神经机器翻译如何应用注意力机制?

    83430

    一文梳理NLP之机器翻译和自动摘要发展现状

    13自动摘要 1 概念 自动文摘(又称自动文档摘要)是指通过自动分析给定一篇文档或多篇文档,提炼、总结其中要点信息,最终输出一篇长度较短、可读性良好摘要(通常包含几句话或数百字),该摘要句子可直接出自原文...以基于句子选取抽取式方法为例,句子重要性得分由其组成部分重要性衡量。...由于词汇在文档出现频次可以在一定程度上反映其重要性, 我们可以使用每个句子中出现某词概率作为该词得分,通过将所有包含词概率求和得到句子得分。...也有一些工作考虑更多细节,利用扩展性较强贝叶斯话题模型,对词汇本身的话题相关性概率进行建模。 一些方法将每个句子表示为向量,维数为总词表大小。 通常使用加权频数作为句子向量相应维上取值。...在多文档摘要任务,重要句子可能和更多其他句子较为相似,所以可以用相似度作为节点之间边权,通过迭代求解基于图排序算法来得到句子重要性得分

    2.5K30

    图解Transformer — Attention Is All You Need

    在论文Attention Is All You Need使用一个编码器-解码器机器翻译结构对变压器进行了介绍和解释与。...在论文中,研究人员在编码块中使用了6个编码器,并且在解码器块中使用相同数量解码器,其中所有编码器和解码器块都相同。 ? 我们输入是一个文本句子,但是计算机只理解数字。...对于序列每个单词,一个包含512个值向量——每个值值都在1到-1之间——被添加到单词嵌入向量,以保持序列顺序 编码器块 到目前为止,我们已经讨论了注意力机器翻译模型基本体系结构。...我们通过单词查询(q1)与句子每个单词关键字(k)之间点积来计算得分(一个单词与每个单词在顺序上有多少关系)。 第二步是将分数除以8(关键向量维数平方根)。这导致具有更稳定梯度。...第三步,计算得分softmax,并根据softmax定义将所有值加起来为1。 ? 这个softmax分数决定了每个单词在这个位置表达量。

    90530

    【Hello NLP】CS224n笔记:机器翻译和seq2seq

    ---- 本文约5000字,阅读约20分钟 目录: 机器翻译 传统机器翻译,SMT 神经机器翻译,NMT Seq2seq Seq2seq结构详解 为什么训练和预测时Decoder不一样?...Decoder输入,训练和测试时是不一样!「在训练时,我们使用真实目标文本,即“标准答案”作为输入」(注意第一步使用一个特殊字符,表示句子开头)。...正因为如此,在训练过程,我们可以使用一些预训练好语言模型来对Decoder参数进行初始化,从而加快迭代过程。 为什么训练和预测时Decoder不一样?...很多人可能跟我一样,对此感到疑惑:为什么在训练时候,不能直接使用这种语言模型模式,使用上一步预测来作为下一步输入呢?...这里重点就在于这个“序列得分计算。 我们使用如下score函数来定义「序列得分」: 这个score代表了当前到第t步输出序列一个综合得分,越高越好。

    87210

    【NLP】Attention Model(注意力模型)学习总结

    ------(思考:为什么要集中在那个部分,是因为那个部分能解决问题吗?) 1. 什么是Attention机制?   ...从这里可以看出,在生成目标句子单词时,不论生成哪个单词,是y1,y2也好,还是y3也好,他们使用句子X语义编码C都是一样,没有任何区别。...而语义编码C是由句子X每个单词经过Encoder 编码产生,这意味着不论是生成哪个单词,y1,y2还是y3,其实句子X任意单词对生成某个目标单词yi来说影响力都是相同,没有任何区别(其实如果Encoder...目标句子生成每个单词对应输入句子单词概率分布可以理解为输入句子单词和这个目标生成单词对齐概率,这在机器翻译语境下是非常直观:传统统计机器翻译一般在做过程中会专门有一个短语对齐步骤,而注意力模型其实起相同作用...如果是常规Target不等于Source情形下注意力计算,其物理含义正如上文所讲,比如对于机器翻译来说,本质上是目标语单词和源语单词之间一种单词对齐机制。

    1.7K31

    图解神经机器翻译注意力机制

    几十年来,统计机器翻译在翻译模型中一直占主导地位 [9],直到神经机器翻译(NMT)出现。NMT 是一种新兴机器翻译方法,它试图构建和训练单个大型神经网络,该网络读取输入文本并输出译文 [1]。...在接下来小节,我们将研究另外 3 个基于 seq2seq 注意力 NMT 架构。为了完整起见,本文还附加了它们 BLEU 值——一种评估生成句子到参考句子评判标准。 2a....两个翻译器会定时「交流」它们读取每一个单词。在读完整篇德语文本后,翻译器 B 负责根据「交流结果」和它们共同选择综合关键词,将德语句子逐词译成英文。...同样,翻译器 B(比 A 更高级)也会读取相同德语文本,同时记下关键词。低级翻译器 A 读取每个单词时都要向翻译器 B 报告。完成阅读后,它们会根据共同选择综合关键词,将句子逐词翻译成英文。...谷歌神经机器翻译(GNMT)[9] 我们大多数人都或多或少使用过谷歌翻译,所以必须谈谈谷歌在 2016 年实现 GNMT。GNMT 是前两个示例组合(主要受到第一个示例 [1] 启发)。

    1.2K20

    机器翻译质量评测算法-BLEU

    本文介绍机器翻译领域针对质量自动评测方法-BLEU,让你理解为什么BLEU能够作为翻译质量评估一种指标,它原理是什么,怎么使用,它能解决什么问题,它不能解决什么问题。 什么是BLEU?...BLEU原理是什么? 为什么BLEU能作为机器翻译一个评估指标,还是得看看它原理是什么。...一般情况1-gram可以代表原文有多少词被单独翻译出来,可以反映译文充分性,2-gram以上可以反映译文流畅性,它值越高说明可读性越好。这两个指标是能够跟人工评价对标的。...如果出现这种短句子,你会发现计算n-gram精度会得很高分,很显然这次得分1,但实际上它得分应该是比较低。针对翻译译文长度比参考译文要短情况,就需要一个惩罚机制去控制。 惩罚因子 ?...由于随着n-gram增大,总体精度得分是呈指数下降,所以一般N-gram最多取到4-gram。 怎么使用BLEU?

    3.9K30
    领券