暂无搜索历史
论文《HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots》提出了一种新型的多模态...
本文聚焦于通过**Sim-to-Real强化学习(RL)**实现仿人机器人基于视觉的灵巧操作任务。灵巧操作(如抓取、搬运、双手交接)是机器人领域长期以来的技术难...
该部分系统性地阐述了当前视觉-语言-动作模型(VLA)存在的关键问题:虚假遗忘(Spurious Forgetting)和任务干扰(Task Interfere...
论文地址:https://graspnet.net/anydexgrasp/assets/files/AnyDexGrasp.pdf
项目地址:https://ut-austin-rpl.github.io/Harmon/
LiDAR作为自动驾驶感知系统的核心传感器,其点云数据的语义分割是实现3D场景理解的关键。然而,LiDAR点云的不规则性、稀疏性,以及大规模数据处理的实时性需求...
本文提出了一种基于可微分仿真器的自动驾驶车辆控制方法,首次将可微分仿真应用于世界模型(World Model)的训练。通过引入解析世界模型(Analytic W...
本文介绍了一种名为VR-Robo的框架,该框架能够为视觉导航和机器人运动学习提供真实感强、物理交互性强的数字孪生仿真环境。该方法利用多视图图像进行基于3DGS的...
本文介绍了一种名为MapFusion的新方法,用于多模态地图构建任务中的特征融合。该方法采用鸟瞰视角(Bird's-Eye View,BEV)特征作为输入,并通...
地址:https://mp.weixin.qq.com/s/Mlik8mEHYSb2XmJXqXlKNQ
论文地址:https://cogact.github.io/CogACT_paper.pdf
本文主要探讨了强化学习中的可解释性问题,并提出了一个新的方法——时间策略分解(TPD),用于解释个体动作的预期未来结果。
项目地址:https://github.com/yueyang130/DeeR-VLA
项目地址:https://github.com/garfield-cpp/HGSFusion
本文介绍了一种名为GPT4Scene的新方法,用于训练和推理视觉语言模型(VLM),以帮助其理解三维空间中的场景。传统的VLM在处理三维空间知识时存在局限性,主...
项目地址:https://snap-research.github.io/wonderland/
本文介绍了一种名为CoCap的多机器人协同运动捕捉方法,用于在户外环境中捕捉多个演员的动作。传统的运动捕捉方法往往无法应对复杂的环境和遮挡等问题,而CoCap通...
这篇论文主要研究了如何利用视觉语言模型(Vision-Language Models,简称VLMs)来帮助视障人士行走。目前全球有大约两亿人患有不同程度的视力障...
项目地址:https://bitmobility.github.io/LGDRL/
项目地址:https://rogerchern.github.io/DrivingGPT/
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市