在人形机器人领域,有一个非常值钱的问题:既然人形机器人的样子与人类类似,那么它们能使用网络视频等数据进行学习和训练吗?如果可以,那考虑到网络视频的庞大规模,机器人就再也不用担心没有学习资源了。近日,德^ h v t z s G克萨斯大学奥斯汀分校和 NVIDIA Research 的朱玉可团队公布了他们的一篇 CoRL 2024 oral 论文,其中提出了一种名为 OKAMI 的方法,可基于单个 RGB-D 视频生成操作规划并推断执行策略9 b b M 1 / ?。
论文地址:OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation
先来看看演示视频:可以看到,机器人在看过人类演示者向袋子中装东西后,也学会了以同样的动作向袋子中装东西。不仅如此,OKAMI 还能让人形机器人看一眼演示视频就轻松学会撒盐、将玩具放进篮子和7 E _合上笔记本电脑等o O | X F y任务: * U R。和 AI 领域内的许多技术一样,OKAMI 也是一个缩写词,全称是 Object-aware Kinematic retArgeting for huManoid Imitation,即用于人形机器人模仿的物体感? 0 U / R \知型动力学重定向。顾名思义,这是一2 U ; l ]种物体感知型重定向方法,可以让具有两个灵巧机器手的双手型人形机器人基于单个 RGB-D 视频演示模仿其中的操作行为。OKAMI 方法详解OKAMI 采用了一种两阶段过程,可将人类运动重新定向成人形机器人的运动,从而可在不同初始条件下完成任务。在第一个阶段,OKAMI 会处理P } V / r视频并生成一个参考操作规划。在第二个阶段,OKAMI 会使用该规划来合A g G h O ( z b +成人形机器人的运动,这个过程会用到运动重定向,其作用是适应目标环境中的物体位置。图 2 展示了其整) D z V个工作流程。问题描述首先,该团队将人形机器人操作任务描述成了一个离散时间马尔可夫m @ Q决策过程,并将其定义成了一个元组 M = (S, Ah x – p, P, R, , )。其中 S 是状态空间、A 是动作空间、P (・|s, a) 是转移概率_ k : ] ) n a ^、R (s) 是奖励函数、 ∈ [0, 1) 是折扣因子、 是初始状态分布。在这里,S 就是原始 RGB-D 观察的空间,其中包含机器人和物体的状态;A 则是人形机器人的运动指令的空间;R 是一个稀疏的奖励函数 —— 当任务完成时,返回 1。对于一个{ r l 9任务,其目标是找到一个策略 ,使其可以在测试时9 m 7 J s *间最大化大量不同的初始配置下的预期任务J H q D 7 * S成功率。他们2 W i ! | z r考虑了「基于观察的开放世界模仿」设置。在该设置中,这个机器人# k | S f ( |系统会获得一段录制的 RGB-D 人类视频 V,然后其需要返回一个人形机器人操作策略 ,使机器人可以完成视频演示的R Q Z Q e任务。参考规划生e 0 E = ~ s ` H成为了实现物体感知型重( A $ k ? *新定向,OKAMI 首先会为人形机R ` g ^ d Z ?器人生成一个参考规划。规划生成需要了解有哪些与任务相关的物体以及人类如何操作它们。识别和定位与任务相关的物体为了模仿视频 V 中的操作任务,OKAMI 必须识别要交互的物体。之^ [ 4 @ u前的方法需要具有简单背景的无监督方法或需要额外的人工标注,而 OKAMI 则不一样,其使用了现成可用的视觉 – 语言模型(VLM)GPT-4V 来识别 V 中与任务相关的物体;这自然是用到了该模型中内化的常识性知识具体来说,OKAMI 会通过采样 RGB 帧并使用 GPT-4V 来获取与任务相关的物体的名称3 7 2。使用这些名称,OKAMI 再使用 Groundd % F ;ed-SAM 来分割第一帧中的物体并使用视频目标分割模型 Cut) r F u J (ie 来跟踪这些物体的位置。重建人类运动为了将人类运动重新定向成机器人运动,7 – I c z LOKAMI 会重建来自 V 的人类运动以获取运动轨迹。为此,他们采用了改进版的 SLL B 2 z Q ZAHMR,这是一/ = / b种用于重建人类运动序列的迭代式优化@ b r a u ] z A Z算法。虽然 SLAHMR 假设双手平放,而新的n F E q – P P扩O e z ; 3 + @ g u展优化了 SMPL-H 模型的手部姿势,这些姿势使用来自 HaMeR 的估计手部姿势进行初始化。此修改使得单目视频中的J N % @ Q R身体和手部姿势可以进行联合优化。m Y 9 i其输出是一个获取了全身和手部姿势的 SMPL-H 模型序列,让 OKAMI 可以将人类动作重新定向到人形机器人。m 3 t $ H x H I l此外,SMP| W \ D c | DL-H 模型还能表示不同人类外观的人类姿势,从而可以轻松地将人类演示者的运动映射到人形机器人。基于视频生成规划有了任务相关的物体和重建出来的人类运动,OKAMI 就可以基于 V 生U 2 P 9成用于完成每个子目标的参考规划了。OKAMI 识别子目标的P ] Q方式是基于以下流程执行时间分割m Q 9 x } @ Y:
首先使用 CoTracker 跟踪关键点,并检测关q E D键点的速度变化以确定关键帧,这些关键帧对应于子目标状态。
对于每个子目标C L { : e,都确定一个目标物体(会因为操作而运动)和一个参考物体(通过接触或非接触关系作为目标物体运动的空间4 S * N参考)。目标物体是根据每个物体的平均关键点速度确定的,而参考物体则通过 GP+ ` ; . 2 k T & ]T-4V 预测的几何启发式或语义关系来识别。
物体感知型3 W T {重定向有了来自演示视频的参考规划后,OKAMI 便可1 ? a i \ = y以让人形机器人模仿 V 中的任务。机器人会遵循规划中的每个步骤 l_i。然后经过重新定向的轨迹会被转换成关节指令。这个过程一直重复直e T } & ^ : s到任务完成,之后基于任务特定的条件来评估是否成功。在测试时间定位物体为了在测试时间环境中执行规划,OKAMI 必须定位机P / x器人观察中的相关物体,提取 3D 点云来跟踪物体位置。通过关注与任务相关L = S A K X x 4 y的物体,OKAMI 策略可以泛化用于各不相同的视觉背景,t t S X q P =包括不同的背景或任务相关物体新实例。将人x @ p \类运动重新定位到人形机器人物体感知的关键是使运动适应新的$ 7 M U物体位置。在定位物体后,OKAMI 会采用一种分解式重新定位过程,即分别合成手臂和手部运动。OKAMI 首先根据物体位置调整手臂运动,以便将手指置于以物体为中心的坐p 1 9 7 4 g G标系内。然后,OKAMI 只需在关节配置中重新定位手指,以模仿演示者用手与物体交互的方式。具体来说,f T 8 ) a 7 4 , Q首先将人体运动映射到人形机器人的任务空间,缩放和调整轨迹以考虑尺寸和比例的差异。然后$ F ? ,,OKAMI 扭曲变形(warp)重新定位的轨迹,以便机器人的手臂到达新的物体位置。该团队考虑了两种轨迹变形情况 —— 当目标和参考物体之间的关系状态不变时以及当关系; K B * – q J % g状态发生变化时,相应地调整变形。在第一种情况下,仅基于目标物体位置执行轨迹变形) 6 A。在第二种情况下,基于参考物体位置执行变x ~ F ,形。变形之后,使用逆动力学计算机器臂的关节配置序列,同时平衡逆运动学计算中的位置& v + s和旋转目标的权重以保持自然姿势。同时,将人类手部姿势重新定位到机器人的手指关节,使机器人能够执行精细的操作。最后,可得到一套全身关节配置轨迹。由于机器臂运动重新定向是仿射式的,因此这y r ; f \ E个过程可以自然地适应不同演示者的情况。通过调整手臂轨迹以适应物体位置并独立重新定位手部姿势,OKAMI 可实现跨各种空间布局的泛化。实验及结果研究者在实验部分主要回答了以下四个研究问题:
OKAMI 能否有效地让人形机器人基于单个人类演示视频来模仿各种操作任务?
在 OKAMI 中,将演示者的身体动作重新定位到人形f ^ 2 ) 7 } ~ L机器人身上是否重要,O E d I @ 5 8 , b以及为什么没有选$ ; E择仅根据物体位置进行重新定位?
OKAMI 能否在多样化人体统计学特征的人类演示视频中始终保持自身性能?
OKAMI 生成的展示(rollout)是否可以用来训练闭环视觉运动策略?
任务设计。研究者在实验中执行了六项任务,| n 3 * a s q ,分别如下:
将毛绒玩具放入篮子里(Plush-toy-in-basket)
将少许盐撒入碗中(Sprinkle-salt)
关上抽屉(Close-the-drawer)
合上笔记本电脑的盖子(Close-the-laptop)
将一袋零食放在盘子上(Place-snacks-on-plate)
将薯片袋放入购物袋中(BaggN p Ding)
硬件设置。研究者使用 Fourier GR1 机器人作为自己的硬y o 8 # c &件平台,配备了两个 6 自由度(DoF)的 Inspire 灵巧手以及一个用来录制视频和进行测试J g S F – + 7 ) U时观察的 D435i Intel# w H r RealSense 摄像头。此外还实现了一个以 400Hz 运行的关节位置控制器。为了避免: [ w y }出现抖动,研B | v D究者以 40HzW D Q I ` ^ 来计算关节位置命令,并将命令插入 400Hz 轨迹。评估方案。研究者针对每项任务运行了 12 次试验。过程中,物体的位置在机器a a i C人摄像头视野和人形手臂可触及范围的交点内进行随机初始Q 9 , p n ? u ! 7化。基线。研究者将 OKAMI 与基线 ORION 进行了比较。定性结果为了回答问题 1),研究者评估了 OKAM6 Q x H ] . J ( ^I 在所有任务中的策略,覆盖日常取放、倾倒和操纵铰接物体等多样性行为。结果如下图 4l ^ – D(a– * p M y 0)所示,实验中随机初始化了物体位置,这样做让机器人需要适C C = =应物体的位置。从结X \ \果来看,OKAMI 可以有效地泛化到不同的视觉和空间条件。为了回答问题 2),研究者在两项代表性任务上将 OKAMI 与 ORION 进行比较,分别是将 Plac@ d Se-snaG v o ;cks-on-pla_ A E l A i g ] ste 和 Close-the-laptop。二者的不同O & ) G * 3 O Y –之处在于 O. i Q W % m i [RION 不以人类身体姿态为条件。结果显示,OKAMI 在两项任务上分别实现了 75.0% 和 83.3% 的成功率,而 ORION 分别只有 0.0% 和 41.2%,拉开了很大的差距。为了回答问题 3),研究者进行了一项受控实验,记录了不同演示者的视频,并测试 OKAMI 策略是否对所有视频输入\ ! g B都能保持良好的性能。同样地,他们选择的任务是 Place-snacks-on-plate 和 Close-the-laptop,结果如图 4! ) t N B } b 7 .(b& \ 4 ] u – i ; %)所示。总体} / 7 f而言,OKAMI 能+ % F够在处理不同演示者的视频时保持相当不错的性能,不过处理这类多样性的视觉 pipeliv D & J S ] Fne 仍有改进的空间。利用 OKAMI Rollout 数a * { = f Z u (据学习视N O 7觉运动策略为了解决问题 4),研究者在 OKAMI rollout 上训练了神经视觉运动策略。他们首先在随机初始化的物体 rollout 上运行 OKAMI,并在收集一个包含成功轨迹的数据集同时丢弃失败的轨迹。此外他们通过行为Y ) | # y T @克隆算| a . p O & Z s法在该数据集上训练神经网络策略2 Y ~ g o v,并o O D 4 = K为 Sprinkle-salt 和 Bagging 两项任务训练视觉运动策略。下图 5 展示了这些策略的成功率,表明 OKAMI rollout 可以成为有效的训练数据源。并且,随着收集到的 rollout 增多,学习到的策略会随之改进。这些结果有望扩展数据收集范围,从而无需费力远程* b ; R + i操作也能学习人形机器– i 0 o f F人操作技能。局限性和未来工作OKAMI 虽强,但也并不完美,下面展示了两个失败% S : 2 @ # i A实例:OKAMI 目前专注于人形机器人的上半身运动重定向,尤其是用于桌面工作空间的操控任务。因此未来有希望扩展到下半身重定向,以便在视频模仿期间实现运动行为。更进一步,实现全身运动操控则需要C + \ / D S一个全身运动控制器,而不是 OKAMI 中使用的关节控制器。此外,研究者在 OKAMI 中依赖 RGB-D 视频,这限制了他们使用以 RGB 记录的野外互联网L : G视频。因此扩展 OKAMI 使用网络视频将是未来另一个有潜力的研究方向。最后,当前重定向的实现在面D D d : ) t q O f对物体的形状变化较大C ] w l S f时表现出了较5 % }弱的稳健性。未来的改进将是整合更3 ? D g I强` [ A [ U M U I Z大的基础模型,使机器` ! w e s . h 2人能够总体了解如何与一类物体进3 R C行交互,即使这e Q 0 e # 4 (类物体的形状变化很大。 参考链接r S H 6 C 4 X D s:https://x.com/yukez/status/1848373529386860933
以上就是朱玉可团队新作:看一眼就能模仿,大模型让机: H K r ] t z _ [器人轻松学会} 5 w g i + M w _撒盐的详细内容z = { F r G r!