本文是一篇关于交互式问答系统中如何通过文本特征工程构建和Logistic Regression判定话题/主题/意图延续还是转换的论文,提供了一条比较好的思路,对于整理问答语料以及问答系统都有很大的指导意义。
由于时间和小编水平都有限的情况,翻译理解不当的地方,请大家提出来,我们一起优化。原文:
AnalyzingInteractive QA Dialogues using Logistic Regression Models
摘
要
传统的问答(QA)系统已经达到了近乎令人满意的性能,而新的挑战是交互式问答(IQA)系统的兴起。IQA一个重要的任务是识别出与对话相关的问题类型(FUQs),自动检测出问题类型以及对每种类型的基于不同的上下文融合的融合策略的开发。
本文作者提出了一种结合机器学习框架,基于对话上下文的浅层线索的方法。
PS:ukWaC 语料(网络派生语料库),[1][2].....分别表示引文的编号,引文在最后面。
介绍
人们普遍认为,用户的后一次问题(FU Qs)是一种不同的任务,也就是,问题经过一些其他的交互,是一种不同于回答的问题的任务。因此,交互式问答(IQA)系统必须解决不同于问题回答(QA)系统的挑战。而后者只能依靠问题来提取相关的关键字,前者应该将之前的交互考虑进去并实现某种形式的上下文融合。例如,识别出在前面交互过程中与处理FU Q和回答相关的信息[1]。第一个关键的上下文相关的区别是主题转换和主题连续性的FU Qs问题类型。这些不同类型的FU Qs需要不同的处理策略。所以,在IQA领域,重要的一个任务是识别问题的类型,自动检测确定的类型,以及每种类型的不同上下文融合策略的开发。
在这篇论文中,目的是说明一个基于浅线索的系统如何计算有限域中的对话和其他简单的信息来源之间的相似性,嵌入到机器学习框架,该系统可以改进FU Q回答性能,以及这样的系统也可以隐式地检测不同的FU Q类型,并学习不同的答案排名策略来应对它们。
另一个创新方面是,不再使用人工文本检索会议(TREC)数据,而是对大多数IQA系统进行评估(TREC2001,TREC 2004),我们训练和测试我们的系统,通过一个封闭的域上的在线聊天机器人收集的真实用户问题。
第3节中描述了对话语料库,并介绍我们的通用建模框架以及在第4节中使用的特征。
第5部分中对不考虑上下文的模型的版本进行了评估。
第6部分总结两项改进方向。
相关内容
评估IQA对实际用户问题的重要性和需要考虑之前系统答案的重要性在[2-4,1]中着重描述了。在早期的研究中,对话集是通过Oz实验或给用户提供特定的任务来收集的。我们所处理的对话集由真实的用户在与机器人聊天中产生的日志信息,聊天场景是一个help-desk场景。
文献[4][5]在给定的上下文中寻找突出的转换。为此,他们利用深层次的语义分析来检测论证谓词结构[4]和确定理论特征[5]。[4]和[2]将参数谓词结构作为语义网络的基础,用于模拟上下文交互并指导上下文融合。[2]中,该系统还依赖于外部本体的深度和块推理。在本文中,我们避免了任何形式的深入分析。[2][3][5]提出了细粒度的问题类型,并提出了不同的处理策略。我们考虑了主题转移和主题延续之间的基本区别,提出了一种通用的线性模型框架,在此框架中可以自动检测到这种差别,并用于改善应答性能。
我们的思路与[1]相似,提出了一种问题分类器,通过利用话语相似测度来检测主题的变化和主题的连续性。而我们更进一步,对于问题类型不需要标记好的训练数据集,直接用问题分类线索改进答案重排序的性能。与[6,7]中也有类似的其他模块的思路,我们使用基于语料库的相似度量,我们使用基于语料库的相似性度量,基于此我们提出了一项重大创新,将它们扩展到与之前的话语相似。最后,关于QA的各个方面有很多关于使用监督机器学习的文献,包括问题的重排序[8]。再重申一次,截止到目前为止,我们是第一次提出把之前的对话作为FU Qs问题的答案的监督分类器。
数据集/语料库
大部分的IQA系统使用TREC(2001,2004)数据集进行训练和评估,TREC数据集是由几个相关的问题组成,thefirst of which sets the topic。所以,如果把整个集合看作一个单独的相互作用,除了每个会话的第一个问题,其后没有任何话题转移[1]。此外,没有答案可以依赖,而且这些问题是由TREC评估者收集的,也就是说,他们并不是真正对互动感兴趣的用户提出的问题。为了克服这些限制,我们收集了与机器人交互的语料,其提供了一个大学图书馆的信息,从图书馆管理员制作的一组484个信息语句中挑选出文本答案(该系统的任务通常被称为答案/重新排序)。
语料库由139组4个来回(即2组对话)的人机交互片段组成。我们做了限定,只进行4轮对话,是因为在大部分的案例中,前两轮对话(Q1,A1)包含了充分的信息来处理FU Q(Q2)以及选择答案(A2)。此外,这使得我们的分类器非常适合实际应用,因为它只依赖于从3个话语(Q1、A1和Q2)中提取的信息。我们把这三种话语称为“语境”。需要注意的是,A1正确地回答了所有为本研究保留的片段。语料库是由其中一个作者手动整理的,包括两类,一种是主题转移的,有57个案例;另一种是主题延续的,有82个案例。下面我们讲主题继续和主题转移的代码示例。在一个封闭域中,这两种类型之间的差异是相当细粒度的。我们已经考虑了话题的延续,所有这些情况下,FU Qs是谈话的自然延续。交互式问答以"与任务相关"寻求对话,因此如果两个问题涉及到同一个任务,那就算是“主题延续”了。主题延续是一项非常微妙的任务,它使无监督、隐式上下文检测特别令人满意。
下面图中给出了示例说明:
举例来说:Q1:Where can I find design books? Q2: and dvd?.
与TREC不同的是Q1和Q2都只是关键词,可能包含一些杂乱的信息,如拼写错误或语法错误,并且可能非常相似:用户都在试图完善这个问题(答案是正确的,但不是他们想要知道的),或者通过将注意力的焦点转移到一个新的相关实体或一个新的相关行动上,进一步探讨这个话题:
Q1: Could yourecommend me some book? Q2: Could you recommend me some novel?.
这类交互在实际用户数据中是很典型的,而且在这种类型的其他论文中也提到了[2,1]。
Model/模型
我们的目标是,给定FU Q(Q2片段),通过对A2候选答案集进行评分和排序挑选出最好的答案。不同的上下文类型可能需要不同的选择策略。因此,我们指定A2(标识)特性,目标是在候选对象中选择正确的A2,以及上下文(标识)特性,目的是描述上下文。A2的识别特征度量上下文中的话语(例如,Q2)和候选A2之间的相似性。上下文特征度量上下文中的问题对(例如,Q1和Q2)的相似性。
它们没有提供关于A2的直接信息,但是可能会提供不同实体的上下文(例如,一个主题转换的实例)该过程中少注意Q2和A2之间的关系,更关注A1和A2之间的关系。
我们通过对训练数据的广义线性模型进行估计,来预测某个A2在上下文环境下是正确的概率,从而实现这些想法。在这个模型中,我们输入A2特性作为主要效果,以及与前一种交互的上下文特性,允许根据上下文特性的值将不同的权重赋值给相同的A2特性。
二轮问题A2的特征
A2的大部分特征用来衡量一个语句与A2的相似情况。直觉上,正确的A2与上下文是相似的。
Lexical Similarity (lexsim)词汇相似度
如果两个句子(例如,Q2和A2)有一些相似的术语,那么共享的词语越多,表达的就越相似。通过将这些词表示为向量,并将它们所包含的单词作为维度来实现。每个维度的值用tf-idf表示,在ukWaC语料库中,其计算公式为:
其中,count(w)表示词w在语料库中出现的次数,D表示语料中文档的个数,Dw表示包含单词w的文档的数量。相似度采用了余弦相似计算的:
Distributional Similarity (distsim)分布式相似
两种表达方式是相似的,可以是相同词,也可以是相似词(例如,书和杂志)。
Semantic similarity (semsim):语义相似
Action sequence (action):
Thebinary feature说明两个回合的问题是否是同一个意图。本论文中用到的语料总共提到了25个action(比如borrowing,delivering等),每次问句都来判定是否是属于这25个action。
对于A1.A2和Q2.A2都要计算以上每种特征,并分别用far features和near features来表征,这个远近是物理上的远近,且以A2为核心,因为A2和A1之间隔着Q2,所以称为far features,A2和Q2是相邻的两个句子,所以称为nearfeatures(开始先忽略Q1.A2特征)。综合考虑下来,总共能获取到8个A2特征(far.lexsim,near.lexsim,far.distsim等等)。
上下文特征Context Features
主题转换通常被认为是影响FU Q答案的主要上下文因素。如果Q2延续了之前的主题,那么Q1和A1仍然与Q2相关。如果主题转换了,A2选择的策略应该主要集中在当前会话中(也就是说只能分析Q2了)。
为了验证增加主题延续的信息可以增强对A2的预测,我们提前对一批语料打上了标签,来区分是否存在主题转换topshift。topshift这个特征在实际的应用中实用性有限,而主题是延续还是转换应该通过本身的语义自动检测出来。
获取Q2是否主题延续一个比较简单的方法是计算Q2和之前utterances的相似度(如Q2与Q1或A1的相似性越低,越有可能发生主题转换)。根据上面可以定义3种相似特征(lexsim,distsim,semsim),由此能得到6个以上的上下文识别特征(Q1.Q2.lexsim,A1.Q2.lexsim,Q1.Q2.distsim等等)。
我们尝试了各种策略将主题近似线索组合成复合的度量方法,但是并没有改善更简单的上下文特性,这一部分论文中就不再赘述。
逻辑回归
Logisticregression models(LRMs)是个广义的线性模型,描述了各个特征与待预测特征之间的关系。
Logistic回归方程来评估A2回答正确的可能性,根据训练得到的β0和其他β系数(代表各特征对答案的贡献程度)。其中,特征值由x1,…XK(这些特征取决于Q1,A1,Q1或A2)。下面是相应的公式描述:
关于LR的训练和模型使用在之前的文章机器学习之Logistic Regression中有讲过。预测各个参数用了最大似然。
评估
正如前面4.2讨论的,取决于主题是否转换,应该给far features和nearfeatures分配不同的权重。下面的实验结果分别给出了单个特征、near组合特征、far组合特征、combined特征,以及综合考虑Q1.A1.Q2的平均迭代次数和评分,迭代次数越小说明性能越好,SD越高说明越具有表征意义。详细的测试结果见Table1。
以下在实验一的基础上,打算验证这么个结论:(7和8)用做过意图转换和意图延续标记的数据来测算准确率和迭代快慢;(9)分别用相应的特征进行LR模型训练和实验,来验证与标记产生的结果可以相媲美。
由此说明对于主题转换还是主题延续可以用本文提出的方法实现,而不再手动标注。算是提供了一种自动标记主题的方法。
实验三在group8的前提下,验证不是所有特征都能起到很好的作用,尤其对于不同的数据集可能采用的特征也不同。需要根据需要进行筛选。
结论
通过LRM的定量评估,可以得出结论,在实际的help-desk设置中,应考虑浅层上下文检测和融合。特别是,前文与FU Q的相似度可以表明主题是否转换,不同的上下文融合策略产生的效果不同。虽然文中验证的浅层线索还算有效,但是需要进一步改进。尤其对于处理以下真正的用户交互场景:
(1)当Q1和Q2十分相似的情况下,用户对于获取的答案不是很满意(既是答案其实还算准确的),这时候用户会按别的方式重新表述一遍问题,甚至重复同样的问题,以此希望能得到一个更好的答案。
(2)Q2只包含动词的实体,而且还是没有经过细分的动词。
所以,以上两种情景的解决方法都需要进一步调研。
引用文献:
1-Yang, F., Feng, J.,Di Fabbrizio, G.: A data driven approach to relevancy recogni-tion forcontextual question answering. In: Interactive Question Answering Work-shop.(2006)
2-Bertomeu,N.: A Memory and Attention-Bases Approach to Fragment Resolution and itsApplication in a Question Answering System. PhD thesis, Universit¨at desSaarlandes (2007)
3-VanSchooten, B.w., Op den Akker, R., Rosset, S., Galibert, O., Max, A., Illouz,G.: Follow-up question handling in the imix and ritel systems: A comparativestudy. Nat. Lang. Eng. 15(1) (2009) 97–118
4-Chai,J.Y., Jin, R.: Discourse structure for context question answering. In:Pro-ceedings of the Workshop on Pragmatics of Question Answering at HLT-NAACL2004. (2004)
5-Sun,M., Chai, J.: Discourse processing for context question answering based onlinguistic knowledge. Know.-Based Syst. 20(6) (2007) 511–526
6-Burek,G., De Roeck, A., Zdrahal, Z.: Hybrid mappings of complex questions over anintegrated semantic space. In: Proceedings of the 16th International Workshopon Database and Expert Systems Applications (DEXA’05), IEEE (2005)
7-Tom´as,D., Vicedo, J., Bisbal, E., Moreno, L.: Experiments with lsa for passagere-ranking in question answering. In: CLEF Proceedings. (2006)
8-Moschitti,A., Quarteroni, S.: Kernels on linguistic structures for answer extraction. In:Proceedings of ACL-08: HLT, Short Papers. (2008) 113–116
In: Proceedings ofACL-08: HLT, Short Papers. (2008) 113–116
9-Kirschner,M., Bernardi, R.: An empirical view on iqa follow-up questions. In: Proc. ofthe 8th SIGdial Workshop on Discourse and Dialogue. (2007)
10-Manning,C.D., Schu¨tze, H.: Foundations of statistical natural language processing. MITPress, Cambrdige (1999)
11-Sahlgren,M.: The Word-Space Model. Dissertation, Stockholm University (2006)
12-Mihalcea,R., Corley, C., Strapparava, C.: Corpus-based and knowledge-based measures oftext semantic similarity. In: Proceedings of AAAI. (2006)
13-Fellbaum,C., ed.: WordNet: An electronic lexical database. MIT Press, Cambrdige (1998)
14-Agresti,A.: Categorical data analysis. Wiley, New York (2002)
领取专属 10元无门槛券
私享最新 技术干货