切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Llama版o1来了,来自上海AI Lab,强化学习代码已开源, ...
菲龙网编辑部7
有 744 人收听 TA
146901
主题
146918
回复
173004
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/38
A股五家上市险企10月共揽保费2.52万亿,平安增速领跑|月度保费观察(10月)
0/44
首届“新华保险杯”百姓大舞台才艺展示大赛为人民美好生活再加料
0/40
温彬:年内LPR报价预计维持不变,明年仍有下调空间
0/43
专访平安银行姜山:从“交易价值”到“身份价值”,汽车供应链金融破解融资难|新金融·造新车
0/39
一图读懂!交通银行公司金融升级品牌“交银蕴通”
0/46
砥砺前行十三载 奋楫扬帆谱新篇——甘肃银行以高质量金融供给赋能地方经济社会发展
0/37
“价值大地”新蓝图成效初显,中国大地保险荣获金鼎奖“2024年度卓越财产保险公司”
0/40
一揽子增量政策进入效果观察期,11月LPR按兵不动、年内第三次降准悬念犹存
0/37
砥砺前行十三载 奋楫扬帆谱新篇——甘肃银行以高质量金融供给赋能地方经济社会发展
查看TA的全部帖子>>
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
时间:2024-11-6 10:25
0
60
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
复刻OpenAI o1
推理大模型
,开源界传来最新进展:
LLaMA版o1
项目刚刚发布,来自
上海AI Lab
团队。
简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。
在2024年6月,o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。
这次最新开源代码,也在开发者社区引起热议。
OpenAI o1系列发布后,团队开始升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。
10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力。
在最难的AIME2024基准测试30道题中,原版LLaMA-3.1-8B-Instruct做对2道,优化后做对8道,超过了除o1-preview和o1-mini之外的其他商业闭源方案。
10月底,团队宣布在
基于AlphaGo Zero架构
复刻OpenAI o1的努力中取得了重大进展:
已成功使模型在学习过程中通过与搜索树交互获得高级思维能力,
无需人工标注
。
不到一周时间,项目便开源了。
LLaMA版o1最新进展
目前已开源内容包括:
预训练数据集、 预训练模型、强化学习训练代码
。
OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据。
每条数据包含一个完整的数学问题推理过程,包含思考内容和评分结果。
例如一个几何问题,包含了问题描述、图形坐标、计算过程和结论推导等完整的推理链路,以及对各个推理步骤的批评和验证内容,对推理过程进行评价和指导。
在此数据集继续预训练后,模型可读取和输出类似o1的长思维链过程。
预训练代码尚未发布
,目前推荐使用LLaMaFactory代替。
有意思的是虽然项目名为LLaMA-O1,但目前官方给的预训练模型基于谷歌Gemma 2。
目前在预训练模型基础上,可以继续进行强化学习训练,从代码中可以看出训练过程如下:
使用蒙特卡洛树搜索进行自我对弈(self-play)以生成经验将经验存储在优先经验回放缓冲区中从缓冲区采样批次数据进行训练更新模型参数和经验优先级
论文中也给出了训练过程的图示。
同时训练代码中使用了以下关键技术点:
使用LoRA进行参数高效微调使用PPO算法作为策略优化方法实现了GAE(Generalized Advantage Estimation)算法用于计算优势函数使用优先经验回放提高训练效率
最后,LLaMA-O1代码发布在名为
SimpleBerry
的GitHub账号下,并没有特别简介,还比较神秘。
其他与SimpleBerry有关的账号和官网中,只能看出性质是一个研究实验室,也并未透露更多研究方向信息。
其他o1复刻项目进展
除LLaMA-O1之外,另一个公开进展的o1复刻项目
O1-Journey
来自
上交大
团队。
团队在十月初发布了第一份进展报告,其中介绍了创新Journey Learning范式,以及第一个成功将搜索和学习整合到数学推理中的模型。
O1-Journey核心开发团队主要由上交大大三、大四本科生,以及上交大GAIR实验室(生成式人工智能研究实验室)的一年级博士生组成。
指导教师包括上交大副教授刘鹏飞,姚班校友、斯隆奖得主李远志等。
LLaMA-O1:
https://github.com/SimpleBerry/LLaMA-O1
相关论文:
https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884
O1-Journey:
https://github.com/GAIR-NLP/O1-Journey/
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部