切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PR ...
菲龙网编辑部7
有 744 人收听 TA
148984
主题
149001
回复
175157
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/65
陈怀宇履新中国进出口银行党委书记
0/58
贺岁快闪,中国黄金“新年有钱花”来了!
0/52
多家银行已超额完成“开门红”!揽储策略、对公投放有何新变化?
0/53
陈怀宇任中国进出口银行党委书记
0/54
省政协委员黄仕坤:支持人工智能赋能黄金珠宝产业丨2025广东两会
0/48
陈怀宇任中国进出口银行党委书记
0/46
新华保险持续接盘王健林名下资产,已收购11家万达广场
0/49
专访马骏:动员社会资本参与绿色金融、转型金融
0/57
2024年银行理财存续规模29.95万亿,产品平均收益率2.65%
查看TA的全部帖子>>
1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA
时间:2025-1-9 09:39
0
132
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
文章转载于新智元
打破数据墙,我们还能做些什么?
近日,来自清华UIUC等机构的研究者提出了PRIME(Process Reinforcement through IMplicit REwards):通过隐式奖励来进行过程强化。
GitHub地址:https://github.com/PRIME-RL/PRIME
这是一种带有过程奖励的在线RL开源解决方案,可以提高语言模型的推理能力,超越了SFT(监督微调)或者蒸馏等方法。
对比SFT,PRIME让模型在重要基准测试上实现了巨大提升:平均提高了16.7%,在AMC和AIME中都提高了20%以上。
Eurus-2-7B-PRIME与Qwen2.5-Math-7B-Instruct,使用了相同的base model(Qwen-2.5-Math-7B),但在上表的6项测试中,5项都超越了instruct版本,同时也超越了GPT-4o。
而这个成绩只用了Qwen Math 1/10的数据资源(230K SFT + 150K RL)!
作者发布了本研究中使用的所有模型和数据,感兴趣的读者请见文后链接。
1
过程奖励模型
热身阶段(SFT)
如前所述,选择Qwen2.5-Math-7B-Base作为起点,然后上点难度,采用竞赛级别的数学和编程基准,包括AIME 2024、AMC、MATH-500、Minerva Math、OlympiadBench、LeetCode和LiveCodeBench(v2)。
首先对基础模型进行监督微调,以获得RL的入门模型(教模型学习某些推理模式)。
为此,研究人员设计了一个以动作为中心的链式推理框架,策略模型在每个步骤中选择7个动作中的一个,并在执行每个动作后停止。
为了构建SFT数据集,研究者从几个开源数据集中收集了推理指令。
值得注意的是,对于许多具有真实答案的数据集,作者选择将其保留用于之后的RL训练,目的是让SFT和RL使用不同的数据集,以使RL中的探索多样化,并且作者认为在PL中真实标签更加重要。
作者用LLaMA-3.1-70B-Instruct来回答指令,并使用系统提示要求模型执行以动作为中心的思维链。
隐式PRM
下面接入过程奖励模型(PRM),这里采用隐式PRM,只需要在响应级别标签上训练ORM。
过程奖励模型简单理解就是对每个推理步骤进行评分,举个例子:
PRM是以这种粒度来评价响应的。
在本文的隐式PRM中,可以使用以下方式免费获得过程奖励:
通过简单地收集响应水平数据和训练ORM来获得PRM,而无需注释步骤标签。
这与ORM训练目标的具体选择无关,比如使用交叉熵损失来实例化隐式PRM,就可以替换成:
强化学习
本文的目标是广泛利用强化学习(RL)来提高推理能力。针对这种资源有限的情况,作者总结了一些最佳实践:
从Ground Truth验证器和高质量数据开始:作者进行了严格的数据收集和清理,以获得可验证的RL数据,并发现仅使用结果验证器足以构建强大的基线。 作者比较了不同的RL算法得出结论,无价值模型的REINFORCE类方法足够有效。 使用「mid-difficulty」问题进行稳定训练:作者提出了一种名为在线提示过滤器的机制,通过过滤掉困难和简单的问题,在很大程度上稳定了RL训练。
使用PRM进行强化学习
将PRM集成到在线强化学习中并非易事,这里有几个需要解决的关键挑战。
如何为强化学习提供密集奖励?
奖励稀疏性一直是强化学习中长期存在的问题。到目前为止,我们仍然没有特别好的解决方案来为LLM的在线强化学习构建密集奖励。
以前的方法主要是为密集奖励建立一个额外的价值模型,众所周知,这样的模型很难训练,而且性能提升不大。
根据前文对隐式PRM的介绍,使用
可以免费从隐式PRM中获得token级别的过程奖励。
这种方式可以直接取代PPO中的价值模型,非常容易与任何优势估计函数和结果奖励相结合。在实践中,作者将过程奖励与REINFORCE、RLOO、GRPO、ReMax和PPO集成在一起,并进行了细微的修改。
如何设置一个好的PRM来启动RL?
即使我们找到了在RL中使用过程奖励的途径,训练好的PRM也并非易事:需要收集大规模(过程)奖励数据(很贵),并且模型应该在泛化和分布偏移之间取得良好的平衡。
隐式PRM本质上是一种语言模型。因此从理论上讲,可以使用任何语言模型作为PRM。在实践中,作者发现最初的策略模型本身就是的一个很好的选择。
如何在线更新PRM以防止奖励黑客攻击?
在线RL中,避免RM被过度优化或被黑客入侵至关重要,这需要RM与策略模型一起不断更新。然而,鉴于步骤标签的成本很高,在RL训练期间很难更新PRM,——可扩展性和泛化问题。
但是,本文的隐式PRM仅要求更新结果标签。也就是说,使用结果验证器即可在训练期间轻松更新PRM。
此外,还可以进行双重转发:首先使用策略部署更新PRM,然后使用更新的PRM重新计算过程奖励,从而提供更准确的奖励估算。
PRIME算法
下图表示PRIME算法的整个循环:
策略模型和PRM都使用SFT模型进行初始化。对于每个RL迭代,策略模型首先生成输出。然后,隐式PRM和结果验证器对输出进行评分,隐式PRM在输出时通过结果奖励进行更新。最后,将结果奖励ro和过程奖励rp组合在一起,用于更新策略模型。
以下是算法的伪代码:
实验
默认情况下,使用SFT模型初始化隐式PRM,并保留SFT模型作为参考对数探测器。超参数方面,策略模型的学习率固定为5e-7,PRM学习率为1e-6,使用AdamW优化器,mini batchsize大小为256,micro batchsize为8。
rollout阶段收集256个提示,每个提示采样4个响应。PRM训练时β=0.05,所有实验中将KL系数设置为0。
将PRIME与仅带有结果验证器(OV)的RLOO进行比较,与稀疏奖励相比,PRIME将RL训练加速了2.5倍,并将最终奖励提高了6.9%,且方差更低。在下游任务上,PRIME的性能也始终优于OV。
下面展示PRM在线更新的重要性。比较两种设置:在线PRM使用Eurus-2-7B-SFT初始化,离线PRM使用EurusPRM-Stage1初始化。
从下图中可以看出,在线PRM在训练集和测试集上的性能都大大优于离线PRM。
参考资料:
https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f
https://the-decoder.com/ai-learns-math-better-with-new-approach-that-uses-a-fraction-of-the-data/
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部