openai发布强化微调新方法,或将革新专家模型构建!这项名为“强化微调”(reinforcement finetuning,rft)的技术,仅需少量数据(P ` f 8 n z Q V #几十到几千条案例)即可训练出在特定领域(如医疗诊断、罕见病诊断)做出最优决策的模型。 这引发了人们对于5 C 6 9 Aai在科学领域的巨大潜力和潜在风险的双重思考。
RFT的核心技术源于强化学习从人类反馈中学习(M m z ~ [ oRLHF),通过训练奖励模型,并利用强化学习算法(如PPO、DPO)微调模型参数,使其更符合c L r k z n y /人类偏好。在数学和编码领域,RFP E 2 g zT可利用蒙特卡洛树搜索(MCTS)等方法生成多l P & E 9 G种解法,H d L 2 N ,再通过强化学习迭代优化,提高准确率。
OpenAI的RFT方法在一些专家场景中表现出色,@ I s S v ;其本质是结合了思维链(CoT)和强化学习。CoT帮助模型生成多样化的推理路径,G U J 9 } W再根据结果进行打分和强化学习微调。然而,RB # R v zFT也面临挑战,例如如何定义强化学习中的状态转移,以及如何在@ ] : S 9 U ltoken级别和完整响应级别之间找到平衡点。 一个根本性的问题是:有效的思维状态表示是否已在预训练中涌现?
目前RFT; / 0 c I 7技术仍存在局限性。其在罕见病诊断中的成功,部分\ S O 0 p 0 A i原因在于罕见病诊断通常有清晰的基因指标和流程化的判别路径,属于相对简单的多项v ! X H q选择题。 RFT在demo中规避了复杂的奖励建模步骤,采用简单的打分函数。 然而,真正的科学问题通常没有标准答案,数据也往往嘈i q 6 = $ U S杂,这给RFT的应用带来了巨大挑战。
OpenAI同步推出了一个强化微调研究项目,邀请全球科研人员提供数据进行测试,这引发了安全担忧。 将科学研究数据集中在少数公司手中,是否会造成不可控的风险? 这需要全社会共同关注V O 7 c n r和谨V J K D |慎应对。
作者简介:
王梦迪教授,普林斯顿大学电子= V 8 + } 9 3 8与计算机工程系终身教授,普林斯顿大学“AI for Accelerated InL ^ ivention”中心主任,在强化学习、可控大模型、AI for Science等领域取得了杰出成m 4 M 4就。
原文链接:略
以上就是OpenAI的强化微调:RL+Science 创造新神还是灭霸?的详细内容!