【新智元导读】爱丁堡大学的研究者提出利用神经网络处理角色的动作动画的全新方法,相比传统方法角色的动作更加逼真、自然。也许我们终于可以告别游戏中无休止的同样动作了。 论文地址:http://theorangeduck.com/media/uploads/other_stuff/phasefunction.pdf 当我们谈论游戏里的人工智能时,我们脑海里的图像通常是更聪明或更接近现实的敌人,而不是那些没头没脑的自动装置。一项新的研究表明,使用神经网络的 AI 可以实时地在复杂的游戏环境中非常逼真地改变代表玩家的
新智元报道 来源:GitHub 编辑:肖琴 【新智元导读】针对四足动物的动画生成问题,爱丁堡大学的研究人员开发了一个被称为“模式自适应神经网络”的新神经网络架构,它可以从实际的运动数据学习,生成非
虽然只比人类多了两条腿,但是四足动物的“魔鬼步伐”却足以让人凌乱。要知道,在动画领域,想要创作一个四足动物的角色,绝对是劳心劳力的一件苦差事。
本文提出了一种用于密集人体3D动作追踪的模型,该模型使用合成数据进行监督,并利用可微渲染和自监督学习进行训练。该模型在2D姿态估计和3D人体姿势预测方面表现出色,优于其他基准模型,并且可以轻松扩展到其他3D人物重定向任务。
原文标题:Teaching a NeuralNetwork to play a game using Q-learning 作者:Soren D 翻译:杨金鸿 本文长度为6000字,建议阅读12分钟 本文介绍如何构建一个基于神经网络和Q学习算法的AI来玩电脑游戏。 我们之前介绍了使用Q学习算法教AI玩简单游戏,但这篇博客因为引入了额外的维度会更加复杂。为了从这篇博客文章中获得最大的收益,我建议先阅读前一篇文章(https://www.practicalai .io/teaching-ai-play-si
当游戏行业仍在聚焦探讨如何让 AI 真正落地、协助游戏的工业化制作时,网易互娱 AI Lab 已基于游戏研发制作中的痛点交出了一份令人惊艳的答卷。
作为博客文章的处女秀,我将简要介绍一下我的研究领域。从现在起,我将之命名为“人体运动轨迹的人工智能动画模拟”(Physically-Based Animation ,下文简称PBA)。
最轻便的也得有5、6斤,价格便宜的就更重了能达到10几斤。穿在身上影响动作的灵活性,而且很快就会累了,基本无法日常使用。
驱动一个数字人往往被拆分为追踪 (Tracking) 与重定向 (Retargeting) 两个环节。追踪由专业的面部捕捉设备及其辅助算法完成,负责记录演员的面部动作信息,重定向则是将捕捉到的动作信息迁移到新的角色。在传统的流程中,这两个环节往往是分离的两套体系,难以融合,且两个环节都有大量不可控的人工发挥成分,互相影响。
这还不算完,更让网友们直呼“离谱”的是,这样的视频动作捕捉AI,只要你有一台电脑+一个RBG摄像头,就能直接抱回家。
驱动一个数字人往往被拆分为追踪(Tracking)与重定向(Retargeting)两个环节。
这些方式对应了雄性果蝇的不同策略,研究人员根据这个信息确定了能够控制雄性果蝇做不同决策的神经元。
多雨的夏季,蜻蜓最为常见,这些美丽的生物的飞行速度极快,狩猎能力也极为出色:蜻蜓狩猎的成功率捕获了高达 95% ,它们一天可以吃掉数百只蚊子。
对于人类来说,看懂视频似乎是再简单不过的事情了。从出生就开始拥有视觉,人眼所看到的世界就是连贯动态的影像。视野中每一个动态的形象都被我们轻易的识别和捕捉。但这对于计算机来说就没那么容易了。对于计算机来说,画面内容的识别,动作的捕捉,都要经过复杂的计算才能得出。当计算机从视频中识别出一些关键词后,由于语义和句子结构的复杂性,还要涉及词汇的词性、时态、单复数等表达,要让计算机将单个的词汇组成通顺准确的句子也是难上加难。 那么让计算机看懂视频都要经过哪几步呢? 首先,识别视频里的内容。目前的图像识别研究大多基于C
神经网络框架变得越来越复杂而精密 在感知、语言翻译等等方面的大部分最先进的神经网络框架正在发展并且不在仅仅关于简单前馈式(feed forward)框架或者卷积式框架(convolutional)。特别地,它们正在混合并匹配不同的神经网络技术如LSTMs、卷积、自定义目标函数、多皮层柱(multiple cortical columns)等等。 所有最酷的系统都在使用 LSTMs 大部分最先进的系统都将LSTMs纳入到系统中,以使系统具有捕捉重复模式的记忆力。 “注意力模型”在升温 一些系统,但不是全部
机器之心原创 作者:邱陆陆 5 月 25 日晚,刚刚宣布加入 Citadel 的前微软人工智能首席科学家、IEEE Fellow 邓力参加了由中国科大百人会和阿尔法公社联合主办的人工智能产业机会研讨会
来源:微软亚洲研究院本文共3000字,建议阅读10分钟确认过眼神,是沉浸式的会议体验。 编者按:常言道:“眼睛是心灵的窗户”,眼神交流所传达的信息也可以进一步提升人们的沟通效果。然而,随着视频聊天、视频会议逐渐成为常态,大家不禁要问,我们有多久没有与同事、朋友、家人确认过眼神了? 而微软亚洲研究院的研究项目 3D 视频会议系统 VirtualCube,可以让在线会议的与会者建立自然的眼神交互,沉浸式的体验就像在同一个房间内面对面交流一样。该技术的相关论文被全球虚拟现实学术会议 IEEE Virtual Re
人体动作的本质细微差别往往是通过肢体动作和手势的结合来传达的,但现有的单目动作捕捉方法大多侧重于身体动作捕捉而忽略手的部分,或者只关注手的动作捕捉而不考虑身体动作。在本文中提出了FrankMocap运动捕捉系统,可以估计三维人手和身体运动。
Transformer架构是由Vaswani等人在2017年提出的一种深度学习模型,它在自然语言处理(NLP)领域取得了革命性的进展。Transformer的核心思想是使用自注意力(Self-Attention)机制来捕捉输入序列中的长距离依赖关系,而无需依赖于循环神经网络(RNN)或卷积神经网络(CNN)。 以下是Transformer架构的详细介绍和实现原理: 1. 多头自注意力机制(Multi-Head Self-Attention) 自注意力机制是Transformer的核心,它允许模型在处理序列的每个元素时,同时考虑序列中的所有其他元素。这种机制通过计算每个元素对其他元素的注意力权重来实现,这些权重表明了在生成当前元素时,其他元素的重要性。 多头自注意力机制进一步扩展了自注意力的概念,它包含多个注意力“头”,每个头学习序列的不同方面。这增加了模型的表达能力,因为它可以从多个角度理解数据。 2. 位置编码(Positional Encoding) 由于Transformer模型没有循环结构,它需要一种方式来理解单词在序列中的位置。位置编码通过向输入添加额外的信息来解决这个问题,这些信息指示了单词在序列中的位置。位置编码通常使用正弦和余弦函数的组合来生成,这允许模型学习到序列中元素的相对位置。 3. 编码器和解码器层(Encoder and Decoder Layers) Transformer模型由编码器和解码器组成,每个部分包含多个层。编码器用于处理输入序列,解码器用于生成输出序列。 - **编码器**:由多个相同的层堆叠而成,每层包含自注意力机制和前馈神经网络。自注意力机制用于捕捉输入序列内部的依赖关系,而前馈网络则对每个位置的表示进行独立处理。 - **解码器**:也由多个相同的层堆叠而成,每层包含自注意力机制、编码器-解码器注意力机制和前馈神经网络。编码器-解码器注意力机制允许解码器关注输入序列中的相关部分。 4. 层归一化和残差连接 为了稳定训练过程,Transformer模型在每个子层(自注意力和前馈神经网络)的输出上应用层归一化。此外,每个子层的输出都会通过一个残差连接,然后将结果传递给下一个子层。这种设计有助于缓解梯度消失问题,使得模型可以更有效地学习。
本周,我在加拿大蒙特利尔参加了NIPS(Neural Information Processing Systems,神经信息处理系统)2015年论坛。这是一次令人难以置信的经历,就像从信息海洋中汲水一样。特别感谢我的雇主Dropbox派遣我参加这场会议(我们正在招人)。 这里是本周我注意到的一些趋势;注意到这些趋势更偏向于深度学习和强化学习(reinforcement learning),因为它们是我在这次论坛中参加的主要部分。 神经网络框架变得越来越复杂而精密 在感知、语言翻译等等方面的大部分最先进的神经
你可能见过穿着“动作捕捉”套装的好莱坞明星,他们穿着的服装布满传感器,电脑把他们变成绿巨人、龙或被施了魔法的野兽。
无论是从剧情还是制作上这部电影都掀起了一阵舆论浪潮。影片中令人印象最深刻的无疑是几场“时间钳形大战”,高度还原了时间逆转的整个过程,而不是直接跳转到过去的某个时间点。
哈佛大学的研究人员和学术界研究者合作开发了一种名为DeepLabCut的深度学习方法,可以自动跟踪和标记移动中动物的身体部位,具有可与人类匹敌的准确性。
【导读】Facebook何恺明和RGB两位大神最近提出非局部操作non-local operations为解决视频处理中时空域的长距离依赖打开了新的方向。文章采用图像去噪中常用的非局部平均的思想处理局部特征与全图特征点的关系。这种非局部操作可以很方便的嵌入已有模型,在视频分类任务中取得的很好的结果,并在在静态图像识别的任务中超过了何恺明本人ICCV最佳论文的Mask R-CNN。何恺明等人提出新的非局部通用网络结构,超越CNN。 何恺明博士,2007年清华大学毕业之后开始在微软亚洲研究院(MSRA)实习,2
手势和语言一样,是人类交流的一种自然形式。事实上,它们可能是最自然的表达方式。进化研究表明,人类语言是从手势开始的,而不是声音。另一个证明就是婴儿在学会说话之前,使用手势来传达情感和欲望。 许多科技公
本文是对发表于计算机图形学顶级会议SIGGRAPH 2021 的论文《 TransPose: Real-time 3D Human Translation and Pose Estimation with Six Inertial Sensors 》的解读。
人工神经网络算是目前最为先进的人工智能,这是一类由多层神经元互联组件构成的机器学习算法,而「神经元」最早就是来自大脑结构的启发。尽管人工神经网络中的神经元肯定不同于实际人脑中的工作方式,但越来越多的研究者认为,将二者放在一起研究不仅可以帮助我们理解神经科学,还有助于打造出更加智能的 AI。DeepMind 和哈佛大学的研究者就在这一思路上进行了探索。
在深度强化学习中,大型网络在直接的策略逼近过程中,将会学习如何将复杂的高维输入(通常可见)映射到动作。当一个拥有数百万参数的巨型网络学习较简单任务时(如玩 Qbert 游戏),学到的内容中只有一小部分是实际策略。一个常见的理解是网络内部通过前面层级学习从图像中提取有用信息(特征),这些底层网络将像素映射为中间表征,而最后(几)层将表征映射至动作。因此这些策略与中间表征同时学习得到,使得独立地研究策略几乎不可能。
选自DeepMind 机器之心编译 参与:smith、黄小天、路雪 一只猴子在树林之间敏捷而灵活地跳跃穿梭,或者一名足球运动员快速带球过人、劲射得分,这些表现皆令人惊叹。掌握这种精密复杂的运动控制是物理智能(physical intelligence)成熟的标志,同时也是人工智能研究中的关键一环。 真正的运动智能需要学习控制和协调身体的灵活性从而完成复杂环境之中的任务。控制物理仿真类人身体的尝试来自多个领域,包括计算机动画和生物力学(biomechanics)。存在一种使用手工对象(有时带有动作捕捉数据)生
Deepmind通过增强学习让木偶学习行走、跑跳。 在自然界中,无论是动物,还是人类,都可以灵活而随心所欲地做出一些动作,比如猴子在树上自由自在得摆动,或是NBA球员虚晃过对手,帅气地投出篮球。但是在AI 研究领域,想要让机器人掌握这些动作(物理上就是一种复杂的电机控制)却不是一件容易的事,而这是AI研究领域的重要组成部分。 近日,Deepmind公布了智能电机的相关研究成果,展示了机器人学习如何控制和协调身体来解决在复杂环境中的任务。这一研究涉及不同领域,包括计算机动画和生物力学。 接下来我们带领大家边玩
机器学习系统通常被认为是不透明的、不可预测的,和人类所接受的训练几乎没有任何共通之处。
深度学习算法中的可变形卷积神经网络(Deformable Convolutional Networks)
【新智元导读】微软亚洲研究院AI大咖童欣在中国科技大学进行题为《数据驱动方法在图形学中的应用》的前沿演讲,解释了如何通过数据驱动的方法来处理图形学问题,以及最新的图形方面的解决方案。 微软亚洲研究院童
由美国东北大学林雪研究组,MIT-IBM Watson AI Lab 和 MIT 联合研发的这款基于对抗样本设计的 T-shirt (adversarial T-shirt),让大家对当下深度神经网络的现实安全意义引发更深入的探讨。目前该文章已经被 ECCV 2020 会议收录为 spotlight paper(焦点文章)。
在《流浪地球 2》中,刘德华饰演的图恒宇是一个令人印象深刻的角色。为了让在车祸中去世的女儿拥有「完整的一生」,他不顾人类世界对「数字生命计划」的禁令,一直在暗中独自努力完善数字生命的架构,并最终决定公然违规,将女儿的数据上传至量子计算机,之后因此被捕入狱。
选自arXiv 作者:Lijie Fan、Wenbing Huang、Chuang Gan、Stefano Ermon、Boqing Gong、Junzhou Huang 机器之心编译 参与:Panda 尽管端到端的特征学习已经取得了重要的进展,但是人工设计的光流特征仍然被广泛用于各类视频分析任务中。为了弥补这个不足,由来自腾讯 AI Lab、MIT、清华、斯坦福大学的研究者完成并入选 CVPR 2018 Spotlight 论文的一项研究提出了一种能从数据中学习出类光流特征并且能进行端到端训练的神经网络
在自然语言处理领域,Transformer模型已经成为了主流的深度学习架构。凭借其强大的处理能力和高效的性能,Transformer在许多NLP任务中都取得了显著的成果。而在Transformer模型中,Attention机制起到了至关重要的作用。
AI科技评论按:这里是,雷锋字幕组编译的 SIGGRAPH 2018系列,带你了解 Computer Vision 领域的最新研究成果。
选自arXiv 作者:Sijie Yan、Yuanjun Xiong、Dahua Lin 机器之心编译 参与:陈韵竹 近日,中国香港中文大学提出一种时空图卷积网络,并利用它们进行人类行为识别。这种算法基于人类关节位置的时间序列表示而对动态骨骼建模,并将图卷积扩展为时空图卷积网络而捕捉这种时空的变化关系。 近年来,人类行为识别已经成为一个活跃的研究领域,它在视频理解中起着重要的作用。一般而言,人类行为识别有着多种模态(Simonyan and Zisserman 2014; Tran e
唐旭 编译整理 量子位出品 | 公众号 QbitAI 如今,不管是在主机、PC端,还是在掌机乃至手机上,各种游戏在画面的逼真度上已经做得相当不错了;不过,对于常玩游戏的朋友们来说,目前这些游戏在一点上
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
本文提出了一个基于物理的稀疏惯性动捕和人体受力估计方案:Physical Inertial Poser (PIP)。仅使用6个惯性传感器(Inertial Measurement Unit,IMU),该方案可以实时捕捉符合真实世界物理规律的人体运动,关节受力、以及地面作用力等信息。 该系统可以在CPU上以60fps的速度运行,算法延迟只有16毫秒,相比前人工作在公开数据及上达到了最高的姿态估计精度、动作平滑性、以及最低的系统延迟,并且首次实现了基于稀疏惯性传感器的人体受力估计。通过引入物理优化,该方案大幅提
本文主要介绍我们在ICDM‘2021发表的工作,ACE-HGNN: Adaptive Curvature Exploration Hyperbolic Graph Neural Network。
马斯克发这个视频,除了公布进展,更大的目的在于为机器人团队招聘,也展示了𝕏平台的招聘功能。
AI 科技评论按:这里是,雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。 原标题:AI-Based Animoji Wi
TimeSformer即Time-Space Transformer,这是第一个完全基于Transformer的视频架构,近年来已经成为许多自然语言处理(NLP)应用程序的主要方法,包括机器翻译和通用语言理解。
译者 | 林椿眄 编辑 | Just 出品 | 人工智能头条(公众号ID:AI_Thinker) 【人工智能头条导读】通常,我们的人工智能系统都是以人的视角去构造的,这些系统已经用于自动驾驶、人脸识别、操作重型机器,甚至检测疾病。那么,我们可以从动物的角度构建一个智能系统吗?比如让 AI 去模拟狗的行为。 华盛顿大学与 Allen 人工智能研究所的研究人员最新的论文公开了他们开发的一种深度学习系统,该系统可以训练并模拟狗的行为特征。研究人员表示训练智能机器的目标是使其能够充当一个智能视觉体的角色。不过,让
场景描述:利用大量动物视频数据,对神经网络进行训练,在复杂、动态环境下的动物行为观察中,实现更好的动物与背景分割效果,从而更好地进行动物追踪。
大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。
领取专属 10元无门槛券
手把手带您无忧上云