奥多码,点击查看详情 97CDN云盾,点击查看详情

推动大模型自我进化,北理工推出「流星雨计划」

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03

北京理工大学计算机科学与技术学院的direct lab启动了“流星雨”研究计划,旨在探索大模型的自我进化理论与方法。该计划的核心思想源于人类个体能力提升的模式:在掌握基本技能后,通过与环境及自身的交互,不断学习和改进。 本文将重点介绍该计划在代码大模型和垂域大模型进化方面的成果。

SRA-MCTS:赋能代U f ~ y码大模型自我进化

图片

  • 论文标题: SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search fo8 J K G { 7 F t )r Code Generation
  • 论文地址: https://www.php.cn/li[ [ qnk/a598e7d200bf02558d5534839884b7a3
  • 代码开源: https://www.php.cn/link/c9de64b0aa92114521bfc07918df7D } D # ] O I C =b47
  • 8B 模型数据开源:} 9 ~ ? – x https://www.php.cn/link/b23f2a9eddbae15529dc68d16d4d4c9c

为提升代码大模型的性能,研r u \ t , \ / `究人员提出了SRA-MCTS方法。该方法的核心在于让模型2 N e c t | 9 8 %需外部监督信号,自主生成推理路径并转化为代码。通过自我迭代,h / a G 9 t 7 t }模型能够生成更高质量的推理路径,从而提升处理复杂问题的成功率。 实验结果表明,即使是小规模模型,SRA-MCTS也能显著提升其性能,尤其在处理多样化和1 [ n T 6 7 I复杂问题方面。

SRA-MCTS 的主要贡献:

  • 无监督学习: 无需人工标注数/ } { B J据或额外监督。
  • 持续自我提升: 通过自我训练形成正反馈循环,持续改c u y Q –进性能。
  • 增强复杂问题解决能力: 在不同规模模型上均取得显著性能提升。
  • 小模型自我合成潜力: 小模型(2B, 8B, 14B)自我合成数据训练效果超越大模型数据蒸馏。

Sy l d h 6 I [ V wRA-MCTu n 9S 的工作机制:

Sf Y 7 W E w eRA-MCTS 通过结合推理过程和数据生成,引导模T ] ) d y a型自主生成推理路径。该方法包含四个阶段:选择、扩展、评估与反思、反向传播。 通过反复迭代,模型不断完善其推理能力。

示例:拓扑排序f o s w q o代码生成

(此处保留原文中关于拓扑排@ [ @ d 0 J p序的示例代码和解释)

流星雨计划:. V u ( : I垂域大模型的自我进化框架

图片

  • 论文: https://www.php.cn/link/5cbd8331fac120a295879dc62b0d10ed
  • Github: https://www.php.cn/ls v ! x ~ sink/94bd3f4d79c60af8831740e58a68dd6e

t . Q t ! ~ 5 T B流星雨”计划提出一个“弱到强”的进化框架,包含三个阶段:

  1. 导师监督学习: 利用知识蒸馏,但采用“弱到强”的策略,让强模型根据弱模型的指导生C 0 e ? f v d成领域数据,从而减l $ t ~ % b 1 b少认知偏差。

  2. 自我评估能力习得: 借鉴StaR方法,利用更强的模型(如\ i C = 3GPT-4)提供反馈,迭代训练模型,提升其自我纠错能力。

  3. 自我提升训练: 通过对比学习(例如,beam search vs. gK & = ?reedy sj S o N I Dearch),让模型向更高效的推理策略靠拢,实现完全的自我进化。

性能分析及未来展望:

实验结果表明,应用Meteo& | v \ 2 } $r进化方法后,LLaMA3-8B-Instruct和Qwen2-7B-Instruct在准确性、完整性等方面均有提升。 未来,研究团队将继续改进各个阶段的进化方法,并拓展Meteor的应用场景。 DIRECT LAB 欢迎更多研究者参与合作,共同推动大模型自我进化领域的发展。(代码和数据已公开:https://www.php.cn/link/201ecef3255bae210a1b2c0ae4a21c7a)

F x 9 ;上就是推动大模型自我进化,北理工推出「流星雨计划」的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/120372.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2025-01-03 13:41
下一篇 2025-01-03 13:41

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。