AIoT创新应用比赛是一个命题作文,AIoT = AI + IoT 是基本了解;要求使用RT1062和TencentOS-tiny是限制条件,也是IDEA创意的出发点。充分利用前提条件的产品形态(IDEA)是正确的进入方式。
个人角度:“终端强大AI模型 + MQTT上云及物联网平台-小程序-手机端生态加持”是理想IDEA形态;本文从创意IDEA条件筛选出发,到IDEA分解为嵌入式工程工作流,数据科学工作流,及总结构成,内容构成如下:
手语是使用视觉-手动方式来传达意义的语言。 手语是成熟的自然语言,有自己的语法和词典。 ASL(Argentinian Sign Language) 是一种完整而复杂的语言,它使用通过移动双手与面部表情和身体姿势相结合的符号。
现实生活也有很多无接触、又无声、基于视觉信号序列传递消息及控制的场景:你和家人看投影,你想不打扰他人调高音量,于是你对着“无接触视觉解析控制器”做了个手势,于是播放音量调高了;你在图书馆看书,你从听音乐切换到听订阅号,你对着手机做出几个手势;类似的场景很多。人类与机器&系统交互信息是结构化的,不需要像聋哑人使用手语一样复杂,通常只需要5-10个基础手势,可以定义组合使用就可以完成几种特定场景结构化环境与系统的交流目的。
墙上安装了带有摄像头的“手语交互器”,在房间摄像头的视野中,你举起一个拳头,2-3秒后系统就为你就打开音乐;给出一个“布”,一回而系统就关闭音乐。当然事情不止这么简单。比如给出,“拳头-布-1个指头”,系统就为了下单定了个1号咖啡收藏店的咖啡。感觉就是结手印,做暗号,而且这个暗号是你独家定制的。
再想象一个场景,你邀请心仪的对象来家里;时间场景合适了,你很酷的、表演性质做出一方魔法手势、姿态,于是灯光黯淡了,背景音乐想起来了,扫地机器人拖着一个盒子过来了,这不成功率大增。
你需要一个心灵一点通的“管家”,一个眼神、一个手势、一个姿态,她就理解了你,一切都为你准备好。 这就是“实时手语交互”技术的出场时机!
本文定义的手语:是人与机器(智能系统)信息输出的方式,是手势识别、序列到特定语义转换的框架。
本文提出了一个基于计算机视觉的模型,可以识别少量特定手势(石头、剪刀、布),并建立手势序列到命令的检测。
有别于常见按钮、声音的交互,我们隔空无声的传递消息;
在于恋人们的灵犀一点的默契;
在于群体的共同语言
比如手指舞
‒模型选择(OD、CLS)
‒噪声抑制
‒断句
‒鲁棒性
‒灵活性(变长输入)
‒输出后处理
‒输入前处理
‒流畅(2s时延 人类无感知)
推理延迟
资源消耗(内存、存储)
精度
真实场景数据采集
数据增广
数据合成
Demo现状精度问题的原因及后续思考:
https://gitee.com/flavorfan/realtime-sign-language-interact
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。