奥多码,点击查看详情 97CDN云盾,点击查看详情

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近年来: d G k ( 0,大模型在人工智能领域掀起了一场革命,各种文本、图像、多模态大模型层出不穷,已经深深地改变了人们的工作和生活方式。另一方面,在国际半导e { R m = .体大会上,英伟达创始人黄仁勋{ f _ B e ^表示,人工智能下一个浪潮将是 “具身智能”,即能理解、推理、并与物理世界互动的智R * p 5 ( # E能系统。近年来,国内外商业巨头也纷纷推出自己的具身机器人发展计划。大模型和具身智能,无疑是当前人工智能领域最闪耀的双^ b K子星。在光电感知技术、机器人技术、大模型技术的快速发展下,大模x e y R型驱动的具身智能,不仅有望极大提升机器人的智能水平,更将推动人工智能技术迈向物理世界,从而产生r Z 2 ` | ,更加广泛的应用。
在此背景下,中国电信 CTO、首席科学家李学龙教授牵头组建中国电信人工智能研究院 (TeleAI), 并将大模型和具身智能作为重要的研究方向。近期,由 TeleAI 研究科学家白辰甲、清华大学助理教授许华哲、TeleAI 院长李学龙教授共同撰写的中文综述《大模型驱动的具身智能:发展与挑战》一文在《中国科学:信息科学》发表,综述通过对 300 篇相关文献的分类和$ 5 U * i q ; V解读,深度剖析大模型驱动的具身智能的基本概念、技术框架、现有挑战h C F P和未来展望,梳理这一热点问题背后的研究脉q [ $ Y ] j F c络和技术体系,进一步推动具身智能领域的发展,助力国家人工智能发展战略。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

  • 论文地址:https://www.sciengine.com/SSI/doi/10.1360/SSI-2024-0076

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

具身智能是人工智能、机器人学、认知科学的交叉领域,主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力。具身智能强调感知 – 运动回路,使用物理实体来感知环境,根据任务目标进行规划和决策,使用* q C 6运动操作能力来完成任务。大模型具有对物理世界的丰~ V M e富知识,能够为智能体提供自然语言交互、环境感知和任务规划的能力,同时能够和具身智能的传统框架相结合,提升智能体策略学习的泛化性。图 1 展示了该领域的典型进展。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

图 1 领域典型进u P 3 p ! X 0 r
综述首先介绍相关技术背景,包括具身智能的基本概念,大模型相关技术,以及强化学习、模仿l a R b w学习、模型预测控制等策略学^ = _ Q M F ) E习框架。随E 6 S 0后,从学习范式的角度将大模型驱动1 P 9 {的具身智能算法H j @ \ (括了` y M { 8 |五大类并依次进行了详细阐述,分别是大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生\ v ) q ] G成。图 2 展示了综述的整体框架。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

图 2 综述整体框+ # O : E R 8 4 g
大模型驱动的具身环境感知
在具身智能任务中,智能光电设备可以为具身智能体提供周围环境的视觉信号,随后大模型感知技术为具身决策提供基础。1)相比于传统的特征提取r + 9方法,视觉大模型具{ O = t有较好的泛化性,许多研究通过引入视觉U l T ~\ ] ? I训练模型来提高策略的视觉泛化能力和鲁棒性。2)机器人R [ A ^ } p p Affordance 是一种对操作任务更具有解释性的通用特= o [ F n s g #性,通过预训练 Afo ( i S = 1 v K Ffordance 模型能够为具身操作提供更详细的指导,例如物体的交互位置 (如门把手,茶壶手柄等),物体的交互轨迹 (如向内推、x U ~向上提等),如图 3 所示。3)复杂任务需要t $ M , 5 W + u J获取操作物体的 3D 场景特征,许多方法, L \ U * V 1 I设计从点& _ e u B I a云和多视角图像中提取目标位置、方向、遮挡、物体之间的堆叠关系等。该领域典型方法如表 1 所k 3 – o \示。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

图 3 典型的 Affordance 提取方式

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

表 1 大模型驱动的具身感知算法总结
大模型驱动的具身任务规划
在大规模语言数据@ o f中训练得到的大模型对现实世界有着丰富的先验知识,可以用来作为具身智能任务的规划器。然而,大模型的知识与具身环境存在不匹配的现象,可能会导致大模型的规划无法执行。1)现有研究通过构建闭环反馈的方_ { { T , + ^ k法来解决开环规划中存在的问题,包括大模型自b ( l v –我反馈、外部环境反馈、强化p % – p u I g e学习反馈等,H z & x ( d * K对大模型等规划进行纠错,如图 4 所示。2)通过规划搜索算法能够提升大模型在长周期任务规划中的最优性,这一领域包含蒙特卡洛树搜索、世界模型、规划领域定义语言搜索等。该领域典型方K ; O b法如表 2# @ 0 P k t % & 所示。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

图 4 大模型规划等闭环反馈方法

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

表 2 大模型驱动的具身规划算法总结
大模型驱动的具身基础策略
大模型任务规划依赖于能够执行规划对底层技能i O X i [库。为了减轻底层技能库定义的依赖,提升决策效率,1)许多研究考虑将大模型参数作为具身基础策略,并利用具身数据对大模型参数进行微调,使大模型能够更加适应于具身决策场景。基础策略可^ l [ p以输出更具体的任务规划,也可以直接输出机器人需要执行的动作,如图 5 所示。2)扩散模型由于对长序列数据建模中的强大能力\ t _ 5,许多研究将其用于建@ { {模专家轨迹的多样化数据分布,从而用于长序列任务的轨迹规划或动作规A f 4 + e ; c划,或作为具身策略结合强化学习算法进行策略优化。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

图 5 大模型驱动的具身策略微调

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

表 3 大模型具身基础策略算法总结
大模型驱动的具身奖励函数
在基于强化学习和模型规划控制的具身算法中,最优策略通过优化奖励函数产生。传统方法中奖励函数由机器人领域专家设计,具有一^ R N S C ~定的设计难度。1)大模型对机器人和任务具有丰富的先验知识,许多研究提出使用大语言模型 / 视觉语言模型进行奖励图或奖励函数的生成,随后通过策略优化和环境反馈进行优化。2)其他研究学习通过从状态视频预测、描述5 c L A – 轨迹匹配程度、轨迹相似性f ) j等方面学习参数化的奖励模型。3)受大模型偏好学习等启0 = i ^发,许多研究通过人类反馈对轨迹偏好进行打分,使用人类反馈强化学习(RLHF)算法进行奖励模型等训练。典型框架如图 6 和表 4 所示。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

图 6 大模型驱动V [ ( B u c ( ]的奖励函数框架

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

表 4 大模型驱动的具身奖励函数算法总结
大模型驱动的具身数据生成
大模型进行具身数据生成有望解决, * ^ z \ P &机器人数据稀缺的难题。1)世界模型(World Model)揭示了物理世L ! P { ) x Q K c界的运行规律,J @ 7 y 5 k f 9 E包括未来视觉观f R F = a T测如何改变,q ^ = & ; D H : Z状态如何根据环境动力学进行转移,以及智能体最终达到的状态等。构建N ( G 8 X t , $世界模型能够快速产I f u $ ; ~ B , ?生大量轨迹来丰富强化学习或模仿学习的数p z ~ ? g { – o据,基本框架包含隐空间世界模型、Transformer 世界模型、扩散世界模型等。2)大模型能够借助仿真环境进行自动化的环境生% a A ) ( F ~成和数据采集,主要流程包括大模型自动任务提出、自动环境构造、自动任务解决、自动数据采集、自动技能学习等,快速产生针对特定任务的仿真数据,进行机器人2 f #技能和策略的学习,如图 7 所示。该领域典型方法如表 5 所示。

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

图 7X 6 ? A Q 大模型驱动F q q T [的仿真环境和数据生成框$ I O

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

表 5 大模型驱动的具身数据生成算法总结
大模型驱动的具身智能已具备了研究和技术体系的雏形,有望使 “数字”V I % 大模型在 “实体” 机) ; / / e d \器人中生根发芽。综2 ! k述随后分析T 4 f Z x :了现有研究之间存在的联系,并总结了目前大模型驱动的具身智能领域面临的挑战,包括大模型在特定具l ` $ # V r ] H u身场景中的适应问题、大模型策略和人类偏好的对齐问题、具身策略的跨域泛化问题、大模型驱动多智能体协作问题、具身智能在真实环境中所面临的挑战和大模型具身策略的决策实时性问题等。
虽然目前关于采取何种w \ 4 S y d d路线能够达到通用具身智能仍很难定论,但大模型的成功切实的推动了具身智能的发展。综述对该领域的未来A 4 Y 8 J o _研究进行了展望,包括统一具身数据平台、通用具身数据表征、鲁棒具身控制策略、可控具身策略生成、人机合作具身智能、异构智能体协同、轻量化具身策略和人形机器人等方面。
团队x m # 2 9 V负责人介绍

大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

李学龙,中国电信 CTO、首席科学家,中国电信人工智能研究院(TeleAI)院长。

以上就是大模型走向物理世界,Te_ m x 2 g | @ vleAI 发布大模型驱动的具身智能综述,覆盖300篇文献的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/117139.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-25 11:54
下一篇 2024-12-25 11:54

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。