为何写本文呢?作为实现真正的自动驾驶而言,从现实意义上真的无法实现一步到位。事实上,从某种意义上讲,实现自动驾驶中还有很多阻碍需要克服。比如如何解决驾驶过程中无法预知的conercase,如何实现更多更大意义层面的为用户提供有意义的报警功能以确保适时接管以规避安全。从体验上,如何探索更多对客户有意义的APP能够更快、更准、更智能化的为客户服务。
对于自动驾驶人机交互策略中,主要涉及接管发起者与接收者在不同场景下的驾驶所属权对应关系。其中发起者和接受者可以分别是系统和驾驶员。而对于自动驾驶的功能操作主要包括激活、干预、接管和最小风险策略。其中,当出现动态驾驶任务(DDT)相关系统失效或超出 ODD 范围时,由系统发出介入请求,用户通过控制横纵向操纵系统等方式进行响应,这个过程被称为接管(侧重于驾驶员被动执行);驾驶员在系统仍处于活动状态时主动向横纵向控制系统提供输入,系统根据阈值判断是退出功能还是继续执行剩下部分的 DDT 任务,这个过程被称为干预(侧重于驾驶员主动执行)。
如上表所示,自动驾驶的驾驶权切换可以根据紧急程度,分为紧急状况的驾驶权转换、非紧急状况的驾驶权转换,在不同的状况下,响应时间要求不一致。对于车企而言,需要针对不同的交互功能阶段,可在数据库开发、数据定制化采集、测试用例开发方面展开工作。
与此同时,针对人机交互中这些有关的算法开发需要进行持续优化,对智能交互中各项功能的评价与应用都要形成完整、有价值的分析报告。
车载智能交互技术的发展研究历程及研究方向
目前市面上多款号称L3级自动驾驶量产车争先亮相,但基本每款均由于各种原因而未能达到真正L3级或未对外开放。在人工智能与“互联网+”大背景下,无论从产品还是产业链角度,智能交互都将是为汽车产业带来重大变革的核心技术之一,随着车辆运行安全性和舒适性的需求日益提高,整车制造企业、自动驾驶系统供应商都在加速推进自动驾驶系统的量产落地,智能网联车辆将长期停留在人机共驾的阶段,当前应同步关注等方面。
为顺应智能交互发展趋势,需要关注等对人机接管的影响,形成智能驾驶新交互体验。车载智能交互经历了从物理旋钮/按键到数字触屏再到语音控制,最后进阶为多模态(如手势控制)的整个控制过程。不管是舱内外都已经在往更高程度的智能话发展, 舱外大家要开始考虑L3以上的问题,舱内要开始考虑多模态交互, 都需要更多的数据来帮助软件迭代。
在不同阶段各种交互模式分别成为其智驾阶段的研发主题,且他们各自具备各自不同的优点。
目前车载智能交互技术现状及人机共驾研究方面,主要倾向于对驾驶功能体验、人机交互研究、人机接管的场景体系研究方面,且以上各方面均已成为政府、OEM、Tier1、自动驾驶公司、国内外高校等研究机构的重点研究问题和方向。分别从如下几方面进行相应的研究:
1)功能体验研究
研究车辆交互中声音、震动、灯光的驾驶员功能体验的效果;
研究各种车机信息交互之间的影响,使与驾驶员交互信息效果最优;
研究各类方式的交互效果的测评;
2)人机交互研究
研究实际应用中的人机交互的方式转变与应用;
研究触屏、语音、手势、人脸等多模态交互功能开发;
为自动驾驶车辆的人机交互提供开发支持;
3)人机接管研究
研究体系与自动驾驶功能之间的对应关系;
研究从驾驶场景(紧急制动、行人穿行 )、驾驶员(年龄、职业、场景等)、车辆状 态(主动接管、ODD场景的接管)等多维度的接管场景体系;
智能交互业务体系
智能驾驶中的人机交互分为纯粹的人机交互和人机接管两个方向。其中,人机交互包含语音数据、人脸数据、手势识别、人因数据等几个方面。其上各方面分别是从数据采集,建立样本库,开发算法,到最终形成评价应用入手进行研究。而人机接管过程则更多与智能驾驶的控制过程做强绑定,实现需要从驾驶员、环境、采取机制等几个大方向的研究策略。具体说来可包括如下几个业务体系。
对于面向自动驾驶的人机交互解决方案来讲,涉及在高级智能化阶段基于高性能国产AI芯片的高安全性解决方案,以及联合云端大脑,整合高精地图、数据闭环、智能汽车运营等全方位云端智能化,构建智能汽车核心能力。整合路端智能化,支持车路协同功能的落地,极大提升系统安全性。
通过对智能交互业务梳理,可通过数据库建设、测试用例、算法开发与评价应用等方面作为业务方向,同时对驾驶员行为全面监控,为人机接管提供更科学的依据,可以全面提升驾驶体验。
智能交互数据库建设---语音数据
1)语音数据采集
语音数据库建设应基于语料集设计、人员特色、噪音类型等维度:面向通讯、导航、车控等多维指令集;不同类型的人员组成、多种场景环境下的噪声源信息。采集规则参照人员、语料集、噪声源几个方面进行。采集规则需要遵循国际标准、不同风格、特殊群体进行。其中人员以20-60岁年龄阶段,每隔10岁为一段年龄平均分布。
语料集的建立主要针对如下几方面进行:
噪声源信息主要来之不同车型的噪声源(包括多人背景、声源定位、外部噪声及多媒体干扰)。其中采集过程涉及不同车型的噪声数据采集、不同车速引起的胎噪、不同场景环境下的噪声、不同背景噪声数据采集等几方面。对于采集数据库而言,则需要保证在从冷启动、地上怠速、地下停车场怠速等不同场景下对于车窗开关及多媒体开关的不同响应。
2)语音算法开发
语音交互的核心技术在于语音增强、语音识别、语义理解、对话管理、自然语言生成、语音合成、声纹识别等,目前旨在进行算法的优化与技术积累。
语音增强涉及波束形成、声源定位和声源去躁。其中语音增强是一种利用声源定位确定目标语音信号的方向,通过深度学习和波束形成的方法抑制噪声和混响的算法模块。如下图,语音波束形成过程中实际是通过来自多个原始声源和噪声源的输入叠加。其形成的声源波束实际是各个音源的合成。在输入后通过一定的算法提取出感兴趣的且能量最高的声源作为主处理声源。随后通过一些经典的程序,包括进行数据云端同步、多通信语音、目标掩蔽等处理手段形成的空间协方差矩阵,利用该矩阵进行掩模处理最终对声源进行有效的去躁。期间,使用波束形成和深度学习相结合的系统,提升去噪性能。
除开以上初级的语音处理手段外,还需要通过一定懂得语音识别算法进行相应的语音识别。其中包括从语音数据库中进行特征提取,声学模型训练,导出声学模型。其次是利用文本数据库中训练的语言模型及语义字典输入至语音解码和搜索算法,最终实现语音算法输出合适的语音。
3)语音测试评价
通过对采集的语音唤醒与指令数据进行多重标注,并建设车载语音识别模块的自动化测评方案,对算法进行评价。评价过程包括数据切分、数据标注、实际测试过程。
数据切分包含设置唤醒词、指令词、多重交互指令。其中,唤醒词测试用例中需要包含基础唤醒词、相似唤醒词、干扰唤醒词。指令词测试用例中包含设置基础指令词、性别干扰、噪音干扰、相似指令词、多媒体音频、背景音、甚至方言干扰、位置影响等。多重交互指令中,涉及选择词、错误输入、内容输入等几个方面。
数据标注内容主要是针对样本库中的不同类型进行文本内容、词槽标注、意图标注、响应时间标注等。样例库中的主要几大类分为通讯、地图、影音娱乐、系统、车身控制、车辆信息查询、生活信息查询、聊天互动等。
测试过程包括对场景模块的数据输入后通过“测试语科”识别语音是属于背景音、车内噪声还是车外噪声。测试内容涉及语音基础识别、交互成功率、语音唤醒、语音打断、语义理解、响应时间、声纹识别等。
此外,针对语音测试结果需要利用合理的评价机制进行语音评价。就应用而言,都是针对车载语音识别功能,形成量产车功能对标报告、交互逻辑的梳理、驾驶员主观体验调研与交互场景类别的交互规则设计。评价维度是针对不同的场景(商务模式、家庭模式、爱人模式、朋友模式)形成对应主题下的主观指标和客观指标。客观指标通常会从安全性、整体性、适应性、易用性四个维度去做分析,且对于这四个评价维度而言需要分配不同的评价比例。主观体验则着重于从识别率高、操作步骤简化、合理语音引导、交互过程流畅程度、响应速度快、不产生使用困惑、注意力占用程度等几个大方面进行的。
智能交互数据库建设---手势数据
1)视觉数据采集
这里所讲的视觉数据研究主要是通过对驾驶员人脸、眼部、手势与不良驾驶行为等数据采集,建成驾驶员视觉交互数据库,用于产品功能研发与竞品车对标。其中,涉及驾驶员人脸眼动数据、身姿数据以及手势识别数据等。比如,眼动数据指对眼部比如虹膜与眼睑的关键点、瞳孔、视线方向等进行标注。身姿数据指对人体骨骼关键点位置进行打点,进行骨骼连线。脸部数据是对人脸进行26点、54点、96点、206点的人脸关键点进行标注,关键点跟踪等。
从更加客观的角度出发,基于驾驶员生理、心理与行为数据,需要结合车辆数据与接管场景数据可以进行车辆驾驶权切换的研究。
2)手势识别算法开发
建立视觉匹配库是进行一切研发的前提,如果单从智能汽车的角度上讲,实际是前期我们现在比较关注的数据闭环子模块中对数据的有效采集形成的。当然采集的座舱内数据是需要通过比较复杂的算法进行目标识别及分类的。提取感兴趣的部分是进行后续视觉识别的前提。对于驾驶员面部识别的研究在前期智能驾驶过程已经是各家研究的重点,这里我们不做重点说明,本文主要关注下一个座舱视觉研发重点中的手势识别过程。
算法开发中的重要一环是进行手势数据切分与标注。对于手势切分而言,主要是通过前期大量的针对不同光照、年龄、性别、手势姿态的状态识别建立可用的识别标签。这些标签实际是可以进行分类的。比如,大拇指状态分类就有大拇指朝上、朝下、竖起大拇指、勾大拇指。手掌状态则指手向内外推开、顺时针逆时针旋转手掌。两根手指朝向向下滑动、两个手指缩小、全速放大、向左右滑动、手向前后滚动、握拳。对于如上每个手势而言都需要进行数据增广以便形成与之类似的匹配数据库。对于手势标注而言,则是标注手部的21个主要骨节点,包括指尖、骨连接等。
3)手势识别测试评价
通过对驾驶员的手势、人脸、眼动、动作等视觉数据进行有效切分后进行标注与聚类,形成功能测试用例,用于功能的验证与算法评价。针对手势识别功能,从硬件平台算力、产品性能表现、负荷状态以及极限状态下的表现等方面对手势识别表现进行评价。
功能涉及通用功能和特定功能两个内容。通用功能主要是指选择、切换、确认等。特定功能:电话、多媒体、主界面等。在考虑一定影响因素(如手势方向或座舱位置、手势角度转动、环境影响:光线、挂件等;操作范围:远近距离、左右范围、上下范围、手势持续时间(动作快慢)等;)前提下,以在各类评价维度中,将响应时间、误识别率、准确率、丢帧率作为首要考虑的要素。确保在车机运行状态下性能满足指标。这些性能包括驾驶员正常驾驶与操作状态下的算力+性能表现;车辆长时间运行后对算力与性能的影响;车辆不同功能(导航、多媒体等功能下的3D渲染、动画、视频显示等)开启下的对系统剩余算力与性能的影响三个大方面。
当然,极限情况下还可以进行冗余测试。包括多手势不停变换,手势不标准,动态手势中断或视野范围内指令不全,特殊群体手势指令,车机功能高负荷运转时识别表现,功能重叠时识别表现,主副驾多种手势同时出现时识别表现,错误手势等。
总结
对于本文所提到的人机交互模式中需要进行包含各类语音、手势、面部识别方面的算法优化。其中语音增强、语义理解、TTS是在进一步的语音开发中比较重要的方面。而手势识别算法方面则更倾向于对硬件平台、模型选取、算力优化以及负荷评价方面还需要努力提升。此外,面部识别方面则需要针对性的对眼动识别、表情算法进行优化。最后,在人因融合方面,则需要多加关注多维人因数据综合评价等相关内容。
除开算法优化外,整个人机交互还离不开功能评价与应用。包含建立完整的评价体系,明确功能表现分级,进行基础功能对标(涉及安全、精准、整体、体验等内容的横向对标过程)。通过智能交互落地签功能级别的有效验证对智能交互性能(包含精确率、误识别、响应时间等)进行有效评价,对负荷模拟条件下智能交互表与告警进行交互功能评价,对单一量产车的智能交互功能进行纵向评价。
写在最后
“知识积累”类稿件质量要求:
A:信息密度高于绝大多数券商的绝大多数报告,不低于《九章智驾》的平均水平;
B:信息要高度稀缺,需要80%以上的信息是在其他媒体上看不到的,如果基于公开信息,需要有特别牛逼的独家观点才行。多谢理解与支持。
领取专属 10元无门槛券
私享最新 技术干货