让机器人像人类一样 "看视频学技能":VideoMimic 技术背后的奥秘
传统的机器人训练方法往往 "麻烦又死板":要么需要在专业的动作捕捉实验室里录制数据,要么得让工程师手动设计成千上百个 "奖励函数"(比如 "迈出一步加 10 分,摔倒扣 100 分")。这些方法不仅成本高,还难以适应真实世界的复杂环境 —— 比如家里的楼梯和办公室的楼梯台阶高度不同,机器人可能就 "不会走" 了。
而 VideoMimic 的突破在于:它让机器人能直接从日常视频中学习。无论是路人用手机拍的 "爬楼梯" 片段,还是家庭录像里的 "坐沙发" 场景,都能成为机器人的 "教学素材"。这种方式不仅成本低、数据来源广,还能让机器人学到更贴近人类生活的 "通用技能"。
VideoMimic 的工作流程就像人类学新技能:先看懂示范,再在安全环境里练习,最后到真实场景中应用。
当一段 "人坐椅子" 的视频输入系统后,VideoMimic 会先做三件事:
■ 识别人体动作:用 AI 模型提取视频中人物的 3D 姿态,比如膝盖弯曲角度、躯干倾斜程度,甚至能判断双脚是否接触地面。
■ 重建周围环境:通过视频帧之间的差异,还原出椅子、地面等场景的 3D 结构,生成点云模型(类似无数个 3D 坐标点组成的 "环境地图")。
■ 校准物理尺度:由于视频可能从不同角度拍摄,系统会根据人体身高(比如成年人平均身高 1.7 米)自动调整比例,确保 "椅子高度" 和 "台阶宽度" 等数据符合真实物理世界。
这个过程就像给视频内容 "搭骨架",让原本平面的画面变成机器人能理解的 3D 数据。
有了 3D 数据后,机器人会在计算机模拟器里进行 "魔鬼训练":
■ 基础热身:先用专业运动捕捉数据(比如运动员的标准步态)做 "基础训练",让机器人掌握平衡、迈步等基本动作。
■ 场景特训:结合第一步得到的环境数据(比如楼梯的高度图),让机器人在模拟场景中反复练习 "爬楼梯"—— 系统会通过 "强化学习" 不断调整动作,比如 "迈错台阶就扣分,顺利登顶就加分"。
■ 技能融合:最关键的一步是 "技能打包"。系统会把爬楼梯、坐椅子、过斜坡等不同技能整合到一个模型里,让机器人学会 "看环境做决定"—— 看到台阶就用爬楼梯的动作,看到椅子就切换成坐的姿势。
为了让机器人适应真实世界的 "不确定性",训练时还会故意加入各种 "干扰":比如随机改变地面摩擦力(模拟打滑)、添加传感器噪音(模拟信号不准),甚至突然推机器人一下(模拟意外碰撞)。这种 "抗压训练" 能让机器人更 "皮实"。
经过虚拟训练后,机器人就能在真实世界 "上岗" 了。以 Unitree G1 类人机器人为例,它只需要通过自身传感器获取三个信息:
■ 身体状态:各关节的位置、速度(比如 "膝盖弯曲了 30 度")。
■ 环境地图:以躯干为中心的 11×11 网格高度图(类似 "周围 1 米内的地面起伏情况")。
■ 目标方向:比如 "向前走 3 米"。
有了这些信息,机器人就能自主完成各种动作。测试中,它不仅能上下不同类型的楼梯(包括室内台阶和室外土坡),还能准确坐到不同款式的椅子上,甚至在脚下打滑时,会快速调整重心、单腿支撑几秒再恢复平衡 —— 这些反应完全是自主完成的,没有人类远程操控
在 SLOPER4D 数据集(一个包含人类活动和场景的标准测试集)上,VideoMimic 的表现远超同类方法:
人体动作重建误差比传统方法降低约 30%(用 "WA-MPJPE" 指标衡量,数值越低越准)。环境重建精度提升更明显,点云模型与真实场景的差距("Chamfer 距离")只有传统方法的 1/14。
在真实机器人测试中,它展现出了惊人的适应性:
面对没见过的 "陌生楼梯",只要高度图显示有台阶,就能自动调整步幅攀爬。
坐椅子时,会根据高度图判断椅子位置,先弯腰再屈膝,动作流畅得像人类。
即使在杂草丛生的斜坡上行走,也能通过高度图感知地面起伏,避免绊倒。
虽然表现出色,VideoMimic 还有几个需要改进的地方:
■ 视频质量敏感:如果视频画面模糊、光线差,或者场景纹理少(比如白墙前的动作),系统可能会把 "台阶" 识别成 "平地",导致机器人动作失误。
■ 复杂环境犯难:遇到堆满杂物的房间,或者需要精细操作的场景(比如 "坐在椅子上同时伸手拿桌上的杯子"),目前还难以完成 —— 因为 11×11 的高度图分辨率不够,无法捕捉细节。
■ 数据量不够多:目前只训练了 123 段视频,机器人偶尔会出现动作 "卡顿",如果能加入更多样化的视频(比如不同年龄、体型的人做同样动作),效果会更好。
随着技术完善,VideoMimic 有望让机器人在更多场景大显身手:
■ 家庭服务:通过观看主人的日常视频,学会 "用吸尘器打扫不同房间"、"根据沙发高度调整坐姿"。
■ 工业协作:分析工人操作机器的视频,快速掌握 "在不同流水线工位上取放零件" 的技能。
■ 救援救灾:通过无人机拍摄的灾区视频,让救援机器人快速适应废墟地形,寻找幸存者。
更长远来看,这种 "从视频学习" 的模式可能会让机器人像人类一样,通过观察和模仿不断积累经验,最终实现真正的 "通用智能"。