一. 手势UIGestureRecognier简介 iOS 3.2之后,苹果推出了手势识别功能(Gesture Recognizer),在触摸事件处理方面,大大简化了开发者的开发难度。利用UIGestureRecognizer,能轻松识别用户在某个view上面做的一些常见手势。UIGestureRecognizer是一个抽象类,对iOS中的事件传递机制面向应用进行封装,将手势消息的传递抽象为了对象。其中定义了所有手势的基本行为,使用它的子类才能处理具体的手势。 二. 手势的抽象类——UIGesture
选自IEEE Spectrum 作者:Prachi Patel 机器之心编译 编辑:袁铭怿 不需要繁琐的设备、键盘,也不需要佩戴笨重的手环,只需在手上打印一条线就能实现凭空打字?近日,一项由斯坦福大学的研究人员开发的智能皮肤系统登上 Nature 子刊,它可以精确定位用户在键盘上想输入的位置,还可以与应用程序甚至是物体交互。 图源:KYUN KYU “RICHARD” KIM / 斯坦福大学 新的 AI 学习机制结合了智能皮肤,可以破译人手的动作,以识别打字、手语,甚至是简单日常物体的形状。开发人员说,这
本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍。主要针对强时序依赖行为识别这个场景,设计了一组卷积模块。
多模交互融合是普适计算和自然交互中最重要的组成部分。笔者认为,实现完整的多模交互融合需要分成四个阶段,分别为独立工作阶段、初步融合阶段、语义理解阶段和任务自适应阶段。
原文来源:Lemberg Solutions Ltd 作者:Zahra Mahoor、Jack Felag、 Josh Bongard 编译:嗯~阿童木呀、KABUDA 现如今,与智能手机进行交互的方式有很多种:触摸屏、硬件按钮、指纹传感器、视频摄像头(如人脸识别)、方向键(D-PAD)、手持设备控制等等。但是我们该如何使用动作识别功能呢? 我们可以举一个例子来说明这个问题,比如当你持手机将其快速移动到左侧或右侧时,可以非常精确地显示出想要切换到播放列表中下一首或上一首歌曲的意图;或者,你可以将手机快
数据、算法与社会融合,四位教授大论道,客观审视人工智能如何融入听障人士的日常生活。
几天不见,Crossin 又去做什么游戏去了呢?这次我做的不是游戏,而是游戏机!而且是体感游戏机。
近年来,由于视频理解成为实现 VR/AR 以及视频共享社交网络服务等实际应用的关键组件,学术界对该领域的研究越来越感兴趣。每天有数百万个视频上传到 TikTok、抖音和西瓜视频进行处理。但是,视频流的爆炸式增长对执行视频理解所需的高准确率和低计算成本提出了挑战。 作为视频理解的一个基本问题,动作识别在内容审核和推荐等视频相关的应用中被提出了越来越高的要求。随着 VR 等技术的飞速发展,与时序相关的动作识别也成为了近年来的研究热点。 时空性、特征和运动模式是视频动作识别任务的重要组成部分。目前,学界主流方法
2020世界VR产业大会上,影创科技发布其首款头手6DoF MR眼镜“鸿鹄”。鸿鹄搭载高通骁龙TMXR2平台,采用全自由度手势操作,为用户创造更“本能”、更“真实”的交互体验。
选自Google Research 机器之心编译 参与:路雪 视频人类动作识别是计算机视觉领域中的一个基础问题,但也具备较大的挑战性。现有的数据集不包含多人不同动作的复杂场景标注数据,今日谷歌发布了精确标注多人动作的数据集——AVA,希望能够帮助开发人类动作识别系统。 教机器理解视频中的人类动作是计算机视觉领域中的一个基础研究问题,对个人视频搜索和发现、运动分析和手势交流等应用十分必要。尽管近几年图像分类和检索领域实现了很大突破,但是识别视频中的人类动作仍然是一个巨大挑战。原因在于动作本质上没有物体那么明
作者: Chunhui Gu & David Ross 编译:魏子敏,龙牧雪,谭婧 就在昨天,谷歌blog发布了一个堪比“视频版”ImageNet的数据集-AVA(A Finely Labeled Video Dataset for Human Action Understanding ),为视频动作识别这一图像识别中的重大课题提供了新的“原材料”。这个崭新的数据集填补了在复杂的场景下,多人执行不同操作的标注空白。 以下为google blog原文,大数据文摘对其进行了编译: 在计算机视觉领域,教会机器在视
陶建华, 巫英才, 喻纯, 翁冬冬, 李冠君, 韩腾, 王运涛, 刘斌. 2022. 多模态人机交互综述. 中国图象图形学报, 27(6): 1956-1987
近期,机器人技术和自动驾驶系统利用实时的深度传感器,如激光雷达(LiDARs),来实现三维感知。激光雷达产生的点云可以提供丰富的几何信息,并帮助机器理解环境感知。早期方法集中于从静态点云中解析现实世界,忽略了时间变化。为了更好地理解时间变化的世界,近期研究更专注于在4D空间理解点云视频,包括三个空间维度和一个时间维度。已有几项工作在4D点云建模方面取得进展。这些方法要么旨在设计改进的网络来建模4D点云,要么采用自监督方法来提高4D点云表示的效率。
最近,来自加州大学伯克利分校和挪威奥斯陆大学的Anat Perry 、Jamie Lubell 等学者在Brain杂志上发表了一项研究,表明即使是单侧损伤前额叶皮层,无论是否涉及到镜像神经元的关键区域额下回(IFG),都会导致情绪识别能力的降低,而对动作识别能力的影响只体现在反应时延长,并且情绪识别能力与β节律抑制成显著负相关。 实验分别选用了17位单侧脑损伤被试和18位年龄匹配的健康对照组被试。为了进一步验证镜像神经元核心区域IFG的在动作和情绪识别中的作用,将这17位脑损伤被试分为IFG损伤的被试(n=
人体姿态分析/行为分析/动作识别AI算法,是一种利用人工智能技术对人体行为进行检测、跟踪和分析的方法。通过计算机视觉、深度学习和模式识别等技术,可以实现对人体姿态、动作和行为的自动化识别与分析。
iOS设备现如今大受欢迎的最重要原因之一就在于其开创了触控操作的潮流。发展到现在,无论是Android还是iPhone,现在APP与用户进行交互,基本上都是依赖于各种各样的触控事件。例如用户对屏幕进行了侧滑,APP就需要对这个手势进行相应的处理,给用户一个反馈。这些相应的事件就都是在UIResponder中定义的。 广告插播的措不及防:如果您要是觉得这篇文章让您有点收获,随手点个赞会让俺兴奋好久吶。 UIResponder大体有四类事件:触摸、加速计、远程控制、按压(iOS9.0以后出来的,3DTou
“陪伴是最好的表白。”科幻电影中的智能机器人,早已可以满足人类的心灵需求。因为更加智能,相比宠物,未来的机器人应该是最好的玩伴。那么,现阶段机器人发展到什么程度?人类应该以什么样的目光看待这些机器人呢
AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可不得转载。 在视频行为识别(action recognition)方向,目前最常见的网络框架有两类,一类是直接将视频作为输入的3D卷积网络,另一类即是将图像以及光流(optical flow)分别作为输入的two-stream网络。目前two-stream类的方法在效果上还是明显要优于3D卷积类的方法,本文主要讨论two-stream类方法中光流的应用。 虽然光流在two-stream类的方法里被广泛应用并且具有很好的效果,
这是2017年NIPS上的一篇做动作识别的论文,作者提出了second-order pooling的低秩近似attentional pooling,用其来代替CNN网络结构最后pooling层中常用的mean pooling或者max pooling, 在MPII, HICO和HMDB51三个动作识别数据集上进行了实验,都取得了很好的结果。此外作者还尝试了加入pose关键点的信息,再次提高了性能。下面我详细说明我对这篇论文的理解。
动作识别的主要目标是判断一段视频中人的行为的类别,所以也可以叫做 Human Action Recognition。
原标题 | New Datasets for Action Recognition
本文介绍的是CVPR2020 满分论文《FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding》,作者为香港中文大学博士邵典。
编者按:近日,计算机视觉顶会 CVPR 2020 接收论文结果揭晓,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。中科院VIPL实验室共七篇论文录取,内容涉及弱监督语义分割、活体检测、手势识别、视觉问答、行人搜索、无监督领域自适应方法等方面,本文将予以详细介绍。
这篇论文应该是3DCNN的鼻祖,对于视频数据来说,作者认为3D ConvNet非常适合于时空特征学习,这里也就是视频分析任务上。 摘要: 我们提出了一种简单而有效的时空特征学习方法,该方法使用在大规模有监督视频数据集上训练的深层三维卷积网络(3D ConvNets)。我们的发现有三个方面:1)与2D ConvNet相比,3D ConvNet更适合时空特征学习;2)具有小的3×3×3卷积核的同质结构是3D ConvNet中性能最好的结构之一;3)我们学习的特征,即C3D(卷积3D),在4个不同的基准上优于最先进的方法,并在其他2个基准上与当前最好的方法相媲美。此外,特征紧凑:在只有10维的UCF101数据集上达到了52.8%的准确率,而且由于ConvNets的快速推理,计算效率也很高。最后,它们在概念上非常简单,易于培训和使用。
在计算机视觉研究中,识别视频中人的动作是一个基础研究问题。个人视频搜索和发现、运动分析和手势交流等应用中,都会用到这项至关重要的技术。 尽管过去的几年里在图像中分类和识别物体的技术上,我们已经取得了令人振奋的突破,但识别人类的动作仍然是一个巨大的挑战。从本质上来说,视频中人的行为更难被明确定义,而物体的定义更为明确。所以构建精细动作标记的视频数据集非常困难。目前虽然有许多基准数据集,比如 UCF101、ActivityNet 和 DeepMind Kinetics,采用基于图像分类的标签方案,为数据集中的每
AI科技评论按:在计算机视觉研究中,识别视频中人的动作是一个基础研究问题。个人视频搜索和发现、运动分析和手势交流等应用中,都会用到这项至关重要的技术。尽管过去的几年里在图像中分类和识别物体的技术上,我们已经取得了令人振奋的突破,但识别人类的动作仍然是一个巨大的挑战。从本质上来说,视频中人的行为更难被明确定义,而物体的定义更为明确。所以构建精细动作标记的视频数据集非常困难。目前虽然有许多基准数据集,比如UCF101、ActivityNet和DeepMind Kinetics,采用基于图像分类的标签方案,为数据
手势识别是交互体验最基本的需求,精准与实时为关键所在。 这是一个奇怪的现象,突然爆发的行业火着火着就冷了,如虚拟现实; 这也是一个意料之中的现象,因为即便概念再火,不能真正落地也终是枉然,如VR交互式体验。 交互体验概念虽已打出许久 但仍处于 “被呐喊”的阶段 据不完全统计,截至2016年上半年,国内VR行业投融资事件共有117起,总投资规模超40亿元。其中2015年全年投融资事件有57起,投资规模为24亿元;2016上半年投资事件有38起,投资规模为15.4亿元。而到了2016年下半年,VR领域的投融资事
之前我们公众号报道了一个项目,看这个天才老爸如何用Jetson NANO做一个带娃机器人, 文章中的爸爸叫:
手势是人类表达信息的重要途径之一,通过手势识别,我们可以获得表达者所要表达信息(例如对方竖起大拇指,表达了对方的表扬之意)。本项目将基于PaddleVideo来训练一个手势识别模型,利用模型对七种手势进行识别,分别是点击、放大、向下滑动、向上滑动、缩小、旋转以及抓取。
---- 手势识别大家并不陌生,想得到的是二维手型识别、二维手势识别、三维手势识别这几个名词,但是到底手势识别技术是什么?怎么定义的?又是如何工作的呢? 谈起手势识别技术,由简单粗略的到复杂精细的,大致可以分为三个等级:二维手型识别、二维手势识别、三维手势识别。在具体讨论手势识别之前,我们有必要先知道二维和三维的差别。二维只是一个平面空间,我们可以用(X坐标,Y坐标)组成的坐标信息来表示一个物体在二维空间中的坐标位置,就像是一幅画出现在一面墙上的位置。三维则在此基础上增加了“深度”(Z坐标)的信息,这
AI 科技评论按:第 32 届 AAAI 大会(AAAI 2018)日前在美国新奥尔良进行,于当地时间 2 月 2 日至 7 日为人工智能研究者们带来一场精彩的学术盛宴。AAAI 2018 今年共收到论文投稿 3808 篇,接收论文 938 篇,接收率约为 24.6 %。
基于骨骼点的动作识别 (Skeleton-based Action Recognition) 旨在从一系列时间连续的人体骨骼点中识别正在执行的动作。相较于 RGB 帧或光流,人体骨骼这一模态与人体动作天然更密切,且更加紧凑。
现在主流的VR硬件设备,主要的输入输出设备还是类似传统游戏手柄的外设:Oculus在Touch没发布之前,一直用的是微软的Xbox的手柄;HTC和索尼都有自己研制开发的控制器作为交互工具。 但是如果想要在VR中达到更加自然的交互和沉浸体验,摆脱外设的手势识别必然是未来发展的一个大方向。 手势识别技术的发展 手势识别技术的发展,可以粗略分为两个阶段:二维手势识别以及三维手势识别。 早期的手势识别识别是基于二维彩色图像的识别技术,所谓的二维彩色图像是指通过普通摄像头拍出场景后,得到二维的静态图像,然后再通过计算
机器之心发布 作者:张皓 本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频 Embedding。 1.视频理解背景 根据中国互联网络信息中心(CNNIC)第 47 次《中国互联网络发展状况统计报告》,截至 2020 年 12 月,中国网民规模达到 9.89 亿人,其中网络视频(含短视频)用户规模达到 9.27 亿人,占网民整体的 93.7%,短视频用户规模为 8.73 亿人,占网民整体的 88
PoseC3D是一种基于 3D-CNN 的骨骼行为识别框架,同时具备良好的识别精度与效率,在包含 FineGYM, NTURGB+D, Kinetics-skeleton 等多个骨骼行为数据集上达到了SOTA。不同于传统的基于人体 3 维骨架的GCN方法,PoseC3D 仅使用 2 维人体骨架热图堆叠作为输入,就能达到更好的识别效果。
iOS 中的事件响应者主要分为两类,分别为UIResponder及UIGestureRecognizer,其中UIControl是一种比较特殊的UIResponder,所以本文将事件响应者分为以下三种类型进行讨论。
基于ArkTS的声明式开发范式的方舟开发框架是一套开发极简、高性能、支持跨设备的UI开发框架,提供了构建HarmonyOS应用UI所必需的能力,主要包括:
不管是手柄、触控板、还是数据手套等VR外设,他们存在的意义大多是为了将用户在现实中的动作传输至虚拟世界之中,并与之进行交互。但这些设备做得再自然,再符合人体工学,也远不及自己的手来得方便与舒适。 基于此,像Leap Motion这类的手势识别技术应运而生。当然,除了大家广为熟知的Leap Motion外,市面上还有许多优秀的手势识别设备。今天,小编就来为大家盘点一下目前较为主流的五款手势识别设备。 Kinect 研发公司:微软 上市时间:2010年11月4日 市场售价:1599元人民币 支持设备:XBOX
实时手势和动作跟踪器是手语识别和手势控制系统的重要组成部分,但是它们经常因遮挡和缺乏对比模式,无法可靠或稳健地执行任务。
9月上半月,蒙牛乳业联合分众传媒、奇虎360在全国范围内推出一项“精选牧场纯牛奶之打劫精选牧场”活动,安卓手机用户在装有分众液晶显示屏的电梯口(连接免费极速WIFI)或在任一有网络的地点,下载并安装新
据优图实验室 AI 手语识别项目组研究员阳赵阳介绍,优图 AI 手语翻译机以普通摄像头作为手语采集装置,依托高性能计算机进行后台运算,用户只需面对摄像头完成手语表达,翻译机屏幕界面就能快速把手语转换为文字,帮助听障人士和健听人士进行正常交流,未来有望在机场、高铁、民政窗口等公共场所部署应用,助力信息无障碍城市建设。
谷歌在创新的路上越走越远,而百度在致富的步子上越走越急。看到下面这些谷歌黑科技,我才明白谷歌和百度不止隔着一个太平洋! 智能隐形眼镜 据谷歌称,它正在开发一款智能隐形眼镜。该产品旨在通过泪液测量血糖水
想象一下,工人正在修复路面上一个大坑洞,因此拥有四条车道的马路缩小为两车道。一名工人左手松松地举着停车标志,用右手挥手示意汽车通过。如果是人来开车的话,自然不会考虑是否要遵循手势或标志,而是会平稳前进。
我是一名专注于机器学习和机器人技术自由者。我的热情始于大学期间的人工智能课程,这促使我探索人机交互的新方法。尤其对于机械臂的操作,我一直想要简化其复杂性,使之更加直观和易于使用。
“AI跳绳”是近期某钉应用新发布运动健康较火热的轻量应用。主要用于运动健康、教育打卡等应用上的娱乐游戏,为了扩展相关领域应用和娱乐,提交运动数据,当做“课程作业”,老师也能在后台查阅相关数据,作业数据提交,任务提交等场景,结合抗疫,提升抵抗力,互动排行榜等激发学生和运动学员的参与性和积极性等作用;;
机器之心报道 编辑:杜伟、陈萍 有了这个项目,大家终于可以亲身体验一把人体姿态估计成像的神奇之处了! 在 CV 领域,人体姿态估计(human pose estimation)利用目标检测模型和姿态估计模型来识别出人体各个关节的位置和网格,并已在动作识别、动画、游戏、运动捕捉系统中有着广泛的应用。 但遗憾的是,人体姿态估计常常见诸于学术研究中,普通读者很难亲身体验它的神奇成像效果。 近日,机器之心在 GitHub 上发现了一个有趣的项目「air-drawing」,作者创建了一个利用深度学习的工具,使你在配有
选自arXiv 作者:Sijie Yan、Yuanjun Xiong、Dahua Lin 机器之心编译 参与:陈韵竹 近日,中国香港中文大学提出一种时空图卷积网络,并利用它们进行人类行为识别。这种算法基于人类关节位置的时间序列表示而对动态骨骼建模,并将图卷积扩展为时空图卷积网络而捕捉这种时空的变化关系。 近年来,人类行为识别已经成为一个活跃的研究领域,它在视频理解中起着重要的作用。一般而言,人类行为识别有着多种模态(Simonyan and Zisserman 2014; Tran e
手势识别指的是计算机设备侦测并识别人类手势。近几年来,随着手势识别技术的高速发展,以及3D传感器的广泛采用,手势交互已经得到广泛的普及。 在越来越多的设备中,我们看到了手势主导的界面,改变了我们和计算机交互习惯。通过结合3D传感器和精美的界面,用来分析数据,计算机变得更智能,能更好的理解人类操作。不可不说是沟通的一大进步。 那么对于用户体验设计来说,手势交互又意味着什么呢? 改变使用习惯:手势交互和手势识别 用户通常都会有惯性思考,我们设计师也同样如此。 在进行手势交互设计时,经常会落入一下误区: 表面上实
近十几年来,人机交互的方式发生了翻天覆地的变化,从最初的“指”上谈兵,到“谈”笑风声、挤眉弄眼,甚至到后来的意念操控,人机交互的演变趋于人性化,正朝着“人机合一”的目标奔去。而唯一没有变的则是它的初心
领取专属 10元无门槛券
手把手带您无忧上云