【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
背景
春晚舞台上,人形AI机器人惊艳亮相,它们灵动地跳着二人转,这一精彩表现令海外都为之惊叹。然而,在国内的评论区,却有一些不和谐的声音。有人肆意贬低,称其为“工业垃圾”,还有人不屑地说“没什么大不了的,不过是编程稍好的工业机器”,甚至有人嘲讽是“人工智障机器人”。但事实真的如此吗?
卓伊凡特别认同罗翔老师的观点:“一个人知识越贫乏,相信的东西就越绝对,因为他根本没有听过与此相对立的观点”,以及“一个知识越贫乏的人,越是有一种莫名奇怪的勇气和一种莫名奇怪的自豪感” (我本人一直对罗老师满怀钦佩)。那些随意发表贬低言论的人,多是自封的“懂王”。他们之所以觉得机器人技术简单,很大程度上是因为自身知识储备不足。连三角函数都一知半解,对初中的勾股定理也茫然不知,解不了二元一次方程,基本各科成绩都惨不忍睹的人,才会仅凭直觉大放厥词。但凡学过高中数学,就会明白其中的技术含量绝不简单。大家一定要保持理性,千万别被这些片面的言论误导。
在此,必须要对宇树科技竖起大拇指。他们不仅开源了部分代码,还能在春晚这个万众瞩目的舞台上,让机器人准时登场,并且全程零失误,这样的技术实力与稳定性,已经远超90%的软件公司。不服气的话,大可以自己找团队开发软件试试便知,也可以看看卓伊凡在相关平台发布的关于软件行业烂尾率的分析内容。
接下来,卓伊凡将基于宇树科技的开源代码展开深入研究,尝试进行机器人相关的学习与探索,一步步为大家揭开机器人从0到1的制作奥秘 。
宇树科技的开源代码
宇树科技为了促进机器人技术的研究与发展、方便开发者进行二次开发,开放了部分机器人相关的代码。例如其针对旗下一些机器人产品,开源了运动控制、SDK(软件开发工具包)等方面的代码,这些开源代码可以让开发者更方便地基于宇树的机器人平台开展创新应用,如开发新的控制算法、设计特定功能的应用程序等。
不过,宇树科技也有一些涉及核心技术、商业机密等方面的代码是不会开源的,以此来保护自身的知识产权和商业利益。
1. Unitree SDK
2. Unitree A1 ROS
卓伊凡已经去看过了代码,只能竖大拇指666!!!!!!发出赞叹!
令我非常震惊的是居然只有6位贡献者~~~非常惊讶!
人形AI机器人的基础原理
机械结构原理
- 仿生设计:模仿人类的身体结构,具有头部、颈部、躯干、四肢等部位,且每个部分都配备多个关节。例如,手臂通常有肩关节、肘关节和腕关节,这些关节赋予机器人类似人类的活动能力,使它能够完成各种复杂动作,如抓取、搬运和操作工具。
- 材料与力学优化:采用轻质且高强度的材料,如铝合金、碳纤维等,以减轻机器人自身重量,同时保证结构的稳定性和耐用性。在力学设计上,合理分布各个部件的重量,确保机器人在运动过程中的重心平衡,避免倾倒。
驱动系统原理
- 电机驱动:大部分关节由电机驱动,电机根据接收到的控制信号转动,带动关节运动。常见的电机类型包括伺服电机,它能够精确控制转速和角度,确保机器人动作的准确性和稳定性。
- 传动机构:电机的动力通过传动机构传递到各个关节,常见的传动机构有齿轮传动、链条传动和皮带传动等。这些传动机构可以根据需要调整动力的大小和方向,以适应不同的运动要求。
感知系统原理
- 视觉感知
- 摄像头:机器人配备多个摄像头,相当于人类的眼睛,用于获取周围环境的图像和视频信息。通过计算机视觉技术,机器人可以识别物体的形状、颜色、位置和运动状态,进行目标检测、识别和跟踪。
- 深度传感器:如激光雷达或结构光传感器,能够测量物体与机器人之间的距离,生成三维环境地图,帮助机器人更好地理解周围空间结构,实现避障和导航功能。
- 听觉感知
- 麦克风阵列:用于接收周围的声音信号。语音识别技术可以将声音转换为文本,使机器人能够理解人类的语言指令。同时,通过声源定位技术,机器人可以确定声音的来源方向,实现与人的自然交互。
- 触觉感知
- 压力传感器:安装在机器人的手部、脚部等部位,用于感知物体的接触力和压力变化。这使得机器人在抓取物体时能够控制力度,避免损坏物体,同时也能感知地面的状况,调整行走姿态。
决策系统原理
- 人工智能算法:机器人利用深度学习、强化学习等人工智能算法对感知到的信息进行处理和分析。深度学习模型可以通过大量的数据训练,学习到物体的特征和模式,从而实现准确的识别和分类。强化学习则可以让机器人在与环境的交互中不断尝试和学习,找到最优的行为策略。
- 知识库与推理:机器人拥有一个知识库,存储了各种知识和规则。在决策过程中,机器人可以根据感知到的信息和知识库中的知识进行推理,得出合理的决策。例如,当机器人接收到 “拿一杯水” 的指令时,它会根据知识库中关于水杯的特征和位置信息,以及环境感知信息,规划出前往水杯位置并抓取水杯的行动方案。
交互系统原理
- 语音交互:通过语音合成技术,机器人可以将处理后的信息转换为自然语言,并通过扬声器输出,与人类进行语音对话。它能够理解人类的语言意图,提供相应的回答和建议。
- 肢体语言交互:机器人可以通过调整自身的姿态、手势和表情等肢体语言与人类进行交流。例如,点头表示同意,挥手表示打招呼等,增强与人类的情感沟通和互动效果。
关于肢体识别的技术最早的接触
最早接触是在百度智能AI云
百度 AI 开放平台提供了人体分析相关的 SDK,其中包含肢体识别等功能,以下为你详细介绍其技术特点、使用方式等方面:
技术特点
- 高精度识别
- 百度的肢体识别 SDK 能够精准识别出人体的各个关键点,如头部、肩部、肘部、腕部、髋部、膝部、踝部等,即使在复杂的场景下,如多人场景、不同姿态和动作下,也能保持较高的识别准确率。
- 对于细微的肢体动作和姿态变化也能敏锐捕捉,为后续基于肢体动作的分析和应用提供可靠的数据基础。
- 多场景适应
- 可适应不同的光照条件,无论是强光、弱光还是逆光环境,都能有效进行肢体识别。
- 支持各种复杂背景,包括室内的家居场景、办公室场景,以及室外的街道、运动场等场景,具备良好的鲁棒性。
- 实时性强
- 能够在短时间内完成肢体识别任务,实现实时的处理和反馈。这对于一些对实时性要求较高的应用场景,如互动游戏、智能健身等非常关键。
- 丰富的功能拓展
- 除了基本的肢体关键点识别外,还可以在此基础上进行功能拓展,如姿态分类(判断人体是站立、坐姿、躺卧等)、动作轨迹分析(跟踪肢体动作的运动轨迹)等。
功能模块
- 人体关键点检测
- 检测人体全身的关键点位置,输出每个关键点的坐标信息,开发者可以根据这些坐标来分析人体的姿态和动作。
- 多人检测与跟踪
- 可以同时对画面中的多个人体进行检测和跟踪,为每个检测到的人体分配唯一的 ID,并持续跟踪其在不同帧中的位置和姿态变化。
- 姿态评估
- 对人体的姿态进行评估,判断是否符合某种标准姿态,例如在健身场景中,可以评估用户的健身动作是否规范。
使用方式
- 集成 SDK
- 百度提供了针对不同开发平台(如 Android、iOS、Windows 等)的 SDK,开发者可以根据自己的需求选择合适的 SDK 进行集成。
- 按照百度提供的开发文档,将 SDK 集成到自己的应用程序中,一般需要进行一些配置和初始化操作。
- 调用 API
- 在集成 SDK 后,开发者可以通过调用相应的 API 来实现肢体识别功能。例如,传入包含人体的图像或视频帧,调用肢体识别 API,即可获取识别结果。
- 开发应用
- 利用 SDK 返回的肢体识别结果,开发者可以开发各种应用,如智能健身应用(根据用户的肢体动作提供实时的健身指导)、互动娱乐应用(实现基于肢体动作的游戏交互)等。
应用场景
- 智能健身
- 在健身应用中,通过肢体识别技术实时监测用户的健身动作,判断动作是否标准,并给予及时的纠正和指导,提高健身效果。
- 互动娱乐
- 开发体感游戏,用户可以通过肢体动作与游戏进行交互,增加游戏的趣味性和沉浸感。
- 安防监控
- 在监控场景中,通过肢体识别分析人员的行为和动作,如是否有异常的奔跑、摔倒等行为,及时发出警报。
- 智能教育
- 在舞蹈、体育等教学场景中,利用肢体识别技术对比学生和教师的动作,帮助学生更好地掌握动作要领。
当初在百度AI智能云本身有个关于肢体识别的SDK要进行插件研发,但是由于甲方的原因导致项目迟迟未能进行,因此错过了去研究的机会。
宇树科技人形AI机器人
宇树科技机器人主要以四足机器人和人形机器人为主,下面分别介绍它们的工作原理:
四足机器人
机械结构原理
- 腿部设计:四足机器人的腿部通常采用多关节结构,一般每条腿有 2 - 3 个关节,类似于动物的髋关节、膝关节和踝关节。这种设计可以提供多个自由度,使机器人能够灵活地调整腿部的姿态和位置,以适应不同的地形和运动需求。例如,当机器人需要跨越障碍物时,腿部关节可以协同运动,使腿部抬高并向前伸展。
- 身体架构:机器人的身体部分是整个结构的支撑和控制中心,它需要具备足够的强度和稳定性来承载各种设备和传感器。同时,身体的设计也会影响机器人的重心分布,合理的重心设计有助于提高机器人运动的稳定性。
运动控制原理
- 步态规划:根据不同的运动场景和速度要求,机器人会采用不同的步态,如小跑、踱步等。步态规划算法会根据机器人当前的状态和目标位置,计算出每条腿在每个时刻的运动轨迹。例如,在小跑步态中,机器人的对角腿会同时运动,以保持身体的平衡和稳定。
- 反馈控制:机器人通过安装在关节处的编码器和力传感器等设备,实时获取腿部的位置、速度和受力情况等信息。控制器会将这些实际测量值与预设的目标值进行比较,然后根据偏差调整电机的输出,以实现精确的运动控制。例如,当腿部受到外部阻力时,力传感器会检测到力的变化,控制器会相应地增加电机的驱动力,以保持腿部的运动。
感知原理
- 视觉感知:机器人通常配备摄像头等视觉传感器,用于获取周围环境的图像信息。通过计算机视觉算法,如目标检测、图像分割等,机器人可以识别出障碍物、地形特征等信息。例如,利用深度摄像头可以获取场景的三维信息,帮助机器人判断前方障碍物的距离和高度。
- 其他感知:除了视觉传感器,机器人还会安装惯性测量单元(IMU)、激光雷达等传感器。IMU 可以测量机器人的姿态和加速度,帮助机器人保持平衡;激光雷达可以实时扫描周围环境,构建环境地图,为机器人的导航和避障提供依据。
人形机器人
机械结构原理
- 关节布局:人形机器人具有类似人类的身体结构,包括头部、躯干、四肢等部分,每个部分都有多个关节。例如,手臂通常有肩关节、肘关节和腕关节,每个关节都提供一定的自由度,使机器人能够完成各种复杂的动作,如抓取、搬运等。
- 身体比例和平衡:人形机器人的身体比例设计需要尽可能接近人类,以保证机器人的运动协调性和稳定性。同时,机器人的重心控制也非常重要,通过合理设计关节的运动和身体的姿态,使机器人在行走、站立等过程中保持平衡。
运动控制原理
- 运动规划:人形机器人的运动规划比四足机器人更为复杂,需要考虑更多的因素,如关节的运动范围、身体的姿态平衡等。运动规划算法会根据任务需求,生成机器人的整体运动轨迹,包括各个关节的运动顺序和角度。例如,当机器人需要完成一个抓取动作时,运动规划算法会计算出手臂各个关节的运动轨迹,使手能够准确地到达目标位置。
- 平衡控制:在行走和运动过程中,人形机器人需要不断地调整身体的姿态和重心,以保持平衡。通过安装在脚底的力传感器和 IMU 等设备,机器人可以实时感知身体的姿态和受力情况,然后通过控制关节的运动来调整重心位置。例如,当机器人向前倾斜时,控制器会调整腿部关节的角度,使身体向后移动,恢复平衡。
感知原理
- 多传感器融合:人形机器人通常会配备多种传感器,如摄像头、激光雷达、麦克风等,以获取更全面的环境信息。通过传感器融合技术,将不同传感器的数据进行整合和处理,提高机器人对环境的感知能力。例如,将视觉传感器和激光雷达的数据融合,可以更准确地识别障碍物的位置和形状。
- 人机交互感知:为了实现与人的自然交互,人形机器人还需要具备语音识别、表情识别等感知能力。通过语音识别技术,机器人可以理解人类的语言指令;通过表情识别技术,机器人可以感知人类的情绪状态,从而做出相应的反应。
本文主要是介绍基础概念,下一篇优雅草卓伊凡将对机器人研究进行实战研究学习,试验,敬请期待。