首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

人机对话系统回复质量的自动化评估

对话系统 人机对话系统分为任务型对话和非任务型对话系统。对于任务型对话系统的评价,一般采用任务完成的程度来进行评估,例如“导购”机器人,主要看用户是否点击“推荐商品”等来评估。非任务型对话系统,一般是闲聊系统,若是多轮对话,一般使用用户与机器之间进行对话的轮数来评估系统优劣。但是若是单轮对话呢,如何评价机器给出回复的好坏?对于给定一句话的回复,不同的人可以给出不同的答案,只要自圆其说即可,如此开放的回复空间,评价回复的好坏实属困难。 而目前并没有什么公认的评价指标可以更好地对对话系统的回复进行评价。很多论文

04

NLP简报(Issue#7)

在机器学习的背景下,合成泛化(compositional generalization)是指机器学习从一组训练示例学习上下文表示。迄今为止,尚不清楚如何正确地测量神经网络中的compositionality。Google AI研究者在 ICLR 2020 上的论文《Measuring Compositonal Generalization: A Comprehensive Method on Realistic Data[1]》,提出了使用问题解答和语义解析等任务进行compositional generalization的最大基准之一。下图显示了该种新模型,使用原子(prodece,direct等)来产生新化合物(即原子的组合)的示例。这项工作的想法是产生一个训练测试拆分,其中包含共享相似原子(生成示例的构造块)但具有不同化合物分布(原子组成)的示例。作者声称这是测试compositional generalization的一种更可靠的方法。

01
领券