意图(intent)是一个值得长期关注的领域,而类比是解释令人头疼问题的好的开始。
人和机器的分水岭
人和机器有何不同?
就能力来说,以前我们觉得两者相距甚远,人拥有机器所没有的自主意识、情感和丰富的创造力。但是生成式 AI 动摇了我们关于「创造力专属于人类」的自信。机器的能力无疑会不断增强,越来越接近 AGI 的蓝图。如果把视角转换一下,不去看未来的相似,而去寻找源头的不同,会发现人和机器的一个核心差异:(演化发展的)动力。
人:向量一般的存在?AI:几乎无限的标量?
人作为基因的复制机器(如果你同意道金斯的学说),生来就带有强烈的「倾向」:生存,繁衍,满足欲望。围绕这种「倾向」发展出了很多能力和复杂机制,比如目标、意图、思考、语言,让人类更好地生存下来。
那么,机器的演化动力是什么?
令人欣慰的是,机器暂时还没有明确的欲望、感觉和意图——更大更快更强,那是人类赋予的。
意图/动力/欲望,肯定不是人和机器的唯一区别,但属于人机分水岭中重要的一段。人类的意图通常伴随着情感和情绪,是重要的心理活动。情感反映了人对事物的主观体验和价值判断,而意图还包含创造性和自发性,这是机器难以完全模拟的。
大模型已经攻克了传统的图灵测试,而 GPT-4o 的发布,让我们在 2024 年就体验到了电影 Her 中的自然情感语音交互。但是从意图层面来说,人和机器的鸿沟依然巨大:人的意图复杂难表,而大模型如果有意图的话,它就是 predict the next token 🤘。
人机交互的窄门
意图一直是人机交互中难以突破的窄门。
有效意图识别是正确响应用户需求的前提,是回答用户问题的关键步骤。理想情况下,用户用直白的话语表达意图,或更直白地操作界面,选择那些可以实现意图的操作。但这只是人机交互中的临门一脚,而在球传到禁区之前的大部分时间里,我们并不清楚用户在干嘛、想干嘛、想怎么干。
在更大范围内准确识别⽤户意图,包括在多模态场景中理解意图,深⼊捕捉⽤户的兴趣和偏好,发现未知需求,可以形成更个性化、更高效和更自然的交互,提⾼现有服务的质量。
在新技术的加持下,意图理解是否有机会成为人机交互的一个突破点?
通往意识圣杯的分岔小径
在人类还没搞明白大脑运作的原理,没研究清楚意识、智能、心智这些问题之前,意图可能是通往目标的一条小径——不一定走得通,但引人入胜。也许意图就像一个中间层,类似古人发明「以太」这个概念来帮助理解物理世界的传播介质。
prompt:a black and white drawing of Cat in a dark forest, in the style of dramatic somber, religious works, lush and detailed
曾经,意图很难捉摸,在自然语言处理领域是一个难题。LLM 出现后,NLP 领域的意图识别一下变得触手可及,让研究者可以望向下一个目标:非语言的意图识别。
下篇预告:什么是意图?
---
AIUX 系列
领取专属 10元无门槛券
私享最新 技术干货