9月17—18日,语言学与人工智能跨学科论坛在武汉举行。与会学者围绕人工智能技术发展中的语言学需求及语言学的作为、语言—认知—人工智能等议题展开深入研讨。
探寻深层语义理解突破口
“由于机器尚不具备‘背景知识’和‘世界知识’,当人和机器进行交流时,歧义现象就表现得尤为突出。自然语言处理的关键就是如何识别与消解自然语言的歧义。”复旦大学外国语言文学学院教授毕玉德表示,语言知识的获取及在计算机中的表示是自然语言处理研究的基础,是语言信息处理领域高难度的前沿课题。语言知识库可以为语义理解任务提供宝贵的知识资源,对于自然语言理解具有重要的理论意义和实践意义。
“从20世纪七八十年代开始,自然语言处理的研究方法从以语言学提供的形式理论和计算方法为主,转向以基于统计方法的研究为主。但当前的研究仍然无法处理深层语义理解等问题。”首都师范大学国家语委中国语言智能研究中心主任周建设介绍称,近年来,计算语言学等学科利用人工智能技术,以语义分析中的指代、隐喻、情感分析等研究方向作为突破口,解释自然语言处理过程中的语义理解等问题。越来越多的学者意识到,要真正解决语义理解问题,还应依靠传统语言学的理论成果,单纯依靠统计方法无法继续取得跨越性的突破。
“怎样让计算机从大规模无标注文本数据中自动学习,得到计算机可以自动识别和处理的文本,成为自然语言处理和机器学习的紧迫任务。”北京大学中文系教授袁毓林认为,重新思考语言学研究和自然语言处理等人工智能研究的互动关系,既有必要,也很紧迫。语言学理论研究能够为自然语言处理提供哪些观念与方法论上的指导?自然语言处理和相关的人工智能研究,对语言学研究提出了什么要求或挑战?又带来了哪些启发和机遇?当前基于深度学习的自然语言处理面临怎样的发展瓶颈?这些问题都值得我们思考。
从认知角度挖掘研究新领域
在袁毓林看来,随着深度学习等技术的发展与应用,人工智能技术为自然语言处理研究带来的变化主要表现在以下几个方面。第一,在语言单位的表示上,使用统一的具有低维、稠密、连续特性的分布式向量,来表示不同颗粒度的语言单位(比如词、短语、句子和篇章等)。第二,在计算处理的模型上,使用循环神经网络、卷积神经网络等学习模型,对不同的语言单位向量进行组合,以获得更大的语言单位的向量表示,并通过在向量空间中的运算,来实现文本分类、知识推理、句子或篇章生成等各种任务及应用。
教育部语言文字应用研究所研究员冯志伟表示,近年来,在会话智能代理系统的研究中,计算语言学家把以言表意、以言行事、以言取效等言语行为综合在一起,很有创意地提出了“信念—期望—意图模型”,并在此基础上成功开发了用于构建会话智能代理系统的对话管理组件。该模型对于信念、期望和意图等概念进行了形式化的描述,使之具有可计算性,从而更加有效地表达了用户向会话智能代理提出的告知或请求的真实意义。这个模型常常与基于公理化逻辑的行为方案集成在一起,把会话当作计划推理的序列来处理,提高了会话智能代理系统的性能。该模型着重于言语行为形式方面的研究,使得言语行为理论由一种描述性和解释性的理论变成了一种可计算的理论。
“在大规模数据的基础上,语言学研究不但要有数据、模型,还需要充分发挥人工智能技术手段,多学科深入互动,结合人工智能研究热点,从认知角度入手,深入挖掘、探索语言学研究新领域。”周建设提出,智能时代背景下的语言学研究应该在加强心理学、神经科学、脑科学、认知科学等多学科研究深入互动的前提下,把注意视角从语言本身转向语言的实际使用规律、语言背后的语义及其组合机制等领域。
不断开拓新的学科增长点
“在智能时代,语言资源比以往任何时候都更为丰富,也更容易获得。在强大的计算能力和科学统计模型的双重辅助下,蕴藏在海量鲜活语言样本中的规律便存在被挖掘的可能。”周建设表示,语言学家既可以沿用传统方式去挖掘有理论价值的语言事实,给出详尽合理的解释;也能够使用大数据技术,挖掘、整理海量语言数据知识,并将这些知识应用到自然语言处理等人工智能领域中。
“人工智能科学的发展有可能推进语言的计算研究,从而使语言知识的表示成为计算机可识别的方式。这将会使语言学成为真正的科学。”北京大学教授陆俭明表示,语言研究如何跟上形势,在人工智能事业中发挥应有的作用,需要深入研究。在他看来,语言学的发展,必须走与其他学科交叉融合的“语言学+”发展之路。需要深入探究语言学与其他不同学科间的关联性和相互作用,找到语言学与其他学科交叉融合的契合点、着力点和支撑点,逐步形成众多的语言学与其他学科交叉融合的新的分支学科,不断开拓新的学科增长点。
会议由武汉大学文学院、武汉大学国家网络安全学院主办。
领取专属 10元无门槛券
私享最新 技术干货