切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
天工版o1、4o同时上线!超强逻辑推理秒杀数学竞赛,实时 ...
菲龙网编辑部7
有 744 人收听 TA
148984
主题
149001
回复
175157
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/64
陈怀宇履新中国进出口银行党委书记
0/57
贺岁快闪,中国黄金“新年有钱花”来了!
0/50
多家银行已超额完成“开门红”!揽储策略、对公投放有何新变化?
0/52
陈怀宇任中国进出口银行党委书记
0/52
省政协委员黄仕坤:支持人工智能赋能黄金珠宝产业丨2025广东两会
0/47
陈怀宇任中国进出口银行党委书记
0/45
新华保险持续接盘王健林名下资产,已收购11家万达广场
0/48
专访马骏:动员社会资本参与绿色金融、转型金融
0/55
2024年银行理财存续规模29.95万亿,产品平均收益率2.65%
查看TA的全部帖子>>
天工版o1、4o同时上线!超强逻辑推理秒杀数学竞赛,实时语音陪聊太上头
时间:2025-1-7 09:44
0
143
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
新智元报道
编辑:编辑部 HYZ
【新智元导读】
今天,「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了,人人可玩的那种。
最近,2024中国互联网价值榜发布。
2024年AIGC应用用户规模TOP榜中,昆仑万维旗下天工AI强势入围!
如今,天工AI已经取得了中国典型工具类AIGC应用TOP 4的好成绩,在多梯队的猛烈厮杀格局中稳稳占据优势。
同时,还不断有好消息传来。
就在今天,天工大模型4.0 o1版/4o版正式上线天工网页端和APP。底座大模型,正式进化到「天工4.0」。
「天工大模型4.0」 o1版(Skywork o1)的上线,意味着国内首款中文逻辑推理能力的o1模型来了!
数学高考题、考研题、奥数题,Skywork o1都能靠自己的逐步思考破解。
注意!Skywork o1并不是简单地复现OpenAI o1模型的工作。它不仅在模型输出上内生了思考、计划、反思等能力,还在模型真正拥有了思考和反思之后,带来了推理能力的提升。
并且,昆仑万维天工大模型4.0上线后,应用端不仅在逻辑推理和代码功能上有了几大提升,语音交互上的表现也着实令人惊叹。
一个月正式发布的新产品「实时语音对话助手Skyo」,如今有了史诗级提升。
众网友实测后纷纷表示,原来国内版的「Her」,已经进化到了不输OpenAI版本的地步!
具备多语言对话能力的Skyo,不仅能快速响应、主动发起对话、实时打断,给出的回应还十分情感化,已经具备了类人特征。
还等什么,实测马上呈上。
超强推理+自我反思,免费体验
现在,分别打开天工APP或网页端,任何人皆可免费享用最新天工4.0 4o版或o1版模型加持的AI了。
既然主打的是推理,那么我们就先来看看Skywork o1在数学题上的表现如何。
体验地址:https://www.tiangong.cn/o1Chat/055
先来个硬核的,AIME数学竞赛题。
题目是这样的——
Jen通过从S={1,2,3, ... ,9,10} 中挑选4个不同的数字来参加抽奖。从S中随机选择4个号码。如果她的至少两个号码是随机选择的号码中的2个,她就能赢得奖金;如果她的四个号码都是随机选择的号码,她就能赢得大奖。假设她赢得了奖品,她赢得大奖的概率是m/n,其中m和n是相对质的正整数。求m+n。
Skywork o1用时1分55秒,经过一番思考后,最终给出了正确答案——116。
对于下面这道同样有些难度的数学题,模型在经过一番思考之后,很快就想到了用图论中的「图兰定理」去解。
值得一提的是,在思考过程中它对答案不确定时,甚至会反思自己的回答,直至最终确定25是正确答案。
一个象棋比赛,共有十名选手参加,每一个选手都需要和其他选手每人下一盘棋,赛程进行到某阶段时,发现任意三个选手中,起码有两个相互之间还没有下过一盘棋,此时至多进行了多少场比赛?
2024年高考新课标一卷的数学真题,Skywork o1也能做出正确答案,就是方法稍微「笨」了点。
复杂一些的逻辑推理题,Skywork o1也能做对。
这道从池塘中取水的推理题,它通过一步步的思考过程,推理出了正确答案。
还有这道「一个人花8块钱买了一只鸡,9块钱卖掉了,然后他觉得不划算,花10块钱又买回来了,11块卖给另外一个人。问他赚了多少」,Skywork o1反复斟酌之后给出了正确的答案。
为什么刚出生的小孩只有一只左眼?这个脑筋急转弯,没能瞒过Skywork o1的眼睛。
弱智吧难题,不在话下。
比如父母以后的钱都是留给我的,可不可以认为父母现在正在花我的钱?Skywork o1从财产所有权、继承权、遗嘱和继承法、道德和家庭关系方面给出了全面的回答。
吕布马上无敌,典韦步战无敌,吕布骑着典韦会不会天下无敌?Skywork o1表示,有趣的脑洞只是一个戏谑的表达,而非严肃的历史或军事讨论。
最后,上一道LeetCode贪心算法的分发饼干代码难题。题目如下——
假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子i,都有一个胃口值 g
,这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干j,都有一个尺寸s[j] 。如果s[j] >= g
,我们可以将这个饼干j分配给孩子i,这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子,并输出这个最大数值。
Skywork o1也顺利给出了答案。
自研技术方案,持续创新迭代
那么,Skywork o1为何能在逻辑推理任务上,有如此大幅的提升?
这就要得益于天工三阶段自研的训练方案。
推理反思能力训练
首先,在推理训练方面,团队通过自主研发的多智能体体系,构建出了高质量的分步推理、反思与验证数据。
然后,用这些高质量且多样化的长思考数据,对基座模型进行继续预训练和监督微调,并在版本迭代中采用大规模的自蒸馏和拒绝采样,从而显著提升了模型的训练效率和逻辑推理能力。
推理能力强化学习
其次,在强化学习阶段,团队创新性地提出了一种适配分步推理强化的奖励模型——Skywork o1 Process Reward Model(PRM)。
在最新的版本中,团队将Skywork-PRM的应用范围,从原本侧重的数学和代码领域,拓展到了常识推理、逻辑推演和伦理决策等更广泛的场景中。同时,还针对写作、闲聊等通用领域以及多轮对话构建了专门的训练数据,实现了全场景覆盖。
此外,团队重点提升了Skywork-PRM的模块化评估能力,特别是在处理o1风格思维链方面,优化了试错和反思验证机制。通过更细致的评估体系,为强化学习和搜索过程提供了更精准的奖励信号指导。
推理planning
最后,在推理的规划方面,团队通 过自研的Q*线上推理算法,以及模型的在线思考能力,实现了最优推理路径的寻找。
概括来说,Q*算法通过借鉴人类大脑中「System 2」的思考方式,将LLM的多步推理过程抽象为一个启发式搜索问题。
然后,再通过Q*线上推理框架与模型在线思考的结合,实现了推理过程中的精细规划,进而指导LLM的解码过程。
Q*算法的成功落地,不仅显著提升了模型的线上推理能力,同时也标志着Q*算法的全球首次实现和公开。
论文地址:https://arxiv.org/abs/2406.14283
更进一步的,团队基于Q*算法对推理系统进行了全面优化。
第一点是模块化的树形结构推理:
团队通过高质量、多样化的长思考数据对Skywork o1进行预训练和监督微调,使模型具备了对整个推理流程进行系统规划,自动将回答按层次展开,同时在推理过程中融入自我反思和验证环节的结构化输出能力。
此外,还创新性地利用以「模块」为单位的规划方式,取代了传统的以「句子」为单位的方法。既提升了规划效率,也使PRM能够基于更完整的模块化回答进行准确判断和推理指导。
第二点是自适应的搜索资源分配:
针对现有o1风格模型存在的过度思考问题,团队开发出了一种全新的自适应搜索资源分配机制。也就是,通过对用户query进行难度预估,自适应地控制搜索树的宽度和深度,进而实现简单问题快速响应、复杂问题多轮验证的动态平衡,有效提升了系统的计算效率和回答准确率。
最终,Skywork o1在GSM8k,MATH,OlympiadBench,AIME-24和AMC-23标准数学基准测试,以及HumanEval、MBPP、LiveCodeBench和BigCodeBench代码基准测试中,性能显著优于常规通用大模型,表现仅次于o1-mini。
实时语音助手,开启AI交互新纪元
在APP端,「天工大模型4.0」4o版加持的实时语音对话助手Skyo,同样带来了前所未有的自然交互体验。
它不仅能在1秒内快速响应,还具备了多语言对话、主动发起对话、实时被打断的能力。
与此同时,4o未来版本可以支持个性化声音定制功能,能够以任何人希望的风格畅聊。
这是这种个性化的体验,让4o不再是冰冷的AI,而是一个更智能的AI伙伴。
当你唤醒Skyo后,他会主动热情打招呼,并尝试开启一个新的话题。当你生活中遇到难题时,可以向它寻求建议和帮助。
比如,家里2岁的宝宝总是说不要不要,我该怎么办?
冰箱里有鸡蛋、生菜、西红柿、鸡腿、香菇,根据这些原材料,能帮我推荐一份食谱吗?
当你想要策划一场旅行,它还会贴心地为你做好攻略——我计划去北京度假3天,你能帮我做一份攻略吗?
甚至,当你无聊时,可以让Skyo玩脑筋急转弯、猜字谜,或者一起聊天......
比如,我们一起玩脑筋急转弯吧,我问你答。什么瓜不能吃?麒麟到了北极会变成什么?
我们还对Skyo进行了压力测试,看看在不断被打断的情况下,它能否依旧表现亮眼?
「帮我朗读一首李白的静夜思;李白的写作风格是怎样的?和李白同时期的著名诗人有哪些?帮我再朗读一首杜甫的诗」。
果不其然,在整个对话过程中,它完全能够跟上节奏,不仅有感情地朗读出诗仙的静夜思,并在古代诗人相关的信息问答中,给出了准确且丰富的回答。
接下来,我们一口气连问四个问题,Skyo即便被频频打断,也没有「崩溃」。
「对于一个单身男青年,可以推荐他晚上看什么电影?什么情况下,说谎是个正确的选择?怎么样区分真诚的道歉和虚伪的道歉?如果动物会说话,它们会说些什么」?
从以上案例可以看出,Skyo具备了基本的智力能力和流畅的响应度,而且它还能做出有趣的互动,成为你个性化的陪聊搭子。
多模态LLM端到端建模
深挖背后,Skywork 4o加持的Skyo突破性体验,是昆仑万维基于大模型、AI音乐等领域的研发经验,以及大量的语音数据积累,打造出这个端到端的语音对话系统。
传统的语音助手采用了ASR(语音识别)+NLU(自然语言理解)+TTS(语音合成)级联方案去实现。
英伟达高级科学家Jim Fan曾指出,AI语音系统Whisper、大模型ChatGPT,以及语音合成技术VALL-E,是让诸如Siri/Alexa等传统语音助手得到改善的一个系统流程。
不过,在此期间,三个独立的模型在串联过程中,会带来响应延迟,甚至是信息损失、优化困难等问题。
对此,昆仑万维选择了一条艰难的创新之路,采用多模态LLM端到端建模。
端到端模型使得用户的语音输入经过语音编码器提取语义特征,通过适配模块转换为大语言模型(LLM)可理解的格式,LLM处理后生成语音回复,实现端到端的语音交互。从根本上解决了这些难题。
团队还采用了低比特率单码本语音Tokenizer,在显著降低延迟的同时还保持了音质。为了扩展语音建模能力,Skywork 4o在超百万小时多语言语音数据上完成了训练。skyo支持全双工流式输出,确保了实时交互的体验。
最关键的是,它不仅能准确识别语音内容,还能捕捉语速、语调、情感等细微的特征,从而做出情感化的回应。
比如我们问道,「我今天在路上偶遇到了一只流浪猫,看着它怪可怜的,所以我决定收养了它」。
Skyo的回答中语气上扬,对这个行为做出了极大的肯定。
再比如,「我最近感到非常疲惫,心情有点差」。
Skyo感同身受地表示,「我能够理解你现在不是处在最美好的状态」。随后,它又主动推荐了一些调节心情的方法。
「有时候,我甚至感觉自己不被人理解」。
听完AI的回答,瞬间感到非常地温暖贴心,甚至有时会给人一种在和知心朋友交流的错觉。
一年迭三代,跻身国内第一梯队
纵观全球AI行业的发展,过去一年里,应用落地成为最受瞩目的关键词。
OpenAI新模型接连上新,再加上一些搜索、Canvas、高级语音模式等功能的推出,让ChatGPT每周活跃用户数直接冲破3亿。
微软押注的Copilot不断迭代,并赋能了更多平台/工具,包括GitHub、Office 365等等。
至于谷歌,今年最爆火的一款应用非NotebookLM莫属,一键转写总结播客让所有人拍案叫绝。
还有Anthropic、亚马逊、Meta等国外科技巨头们,都在AI落地战场上加速布局。
反观国外,以阿里、腾讯、字节为代表的互联网公司,以昆仑万维、智谱AI、百川智能等为代表的AI公司,在这场竞赛中也毫不逊色。
据QuestMobile统计,截至今年9月,国内AI原生应用活跃用户数接近8000万人。
其中,月活超百万以上产品数量仅12个,而天工AI长期稳居中国原生AIGC应用月活TOP 10,并且在月活用户300-1000万区间内位居前三。
值得注意的是,昆仑万维凭借其扎实的技术积累,以及清晰的战略布局,正逐步确立自己在这个赛道中的领先地位。
去年5月,其主打产品天工AI日活跃用户(DAU)已经突破百万大关。
作为一家老牌互联网企业,昆仑万维从2008年诞生后,一直在书写着自己的AI传奇。
2020年,在GPT-3出世的这个关键节点上,团队开始全面布局AIGC和大模型领域。
2024年,是昆仑万维在AI领域的丰收年。
截至目前,他们已自研出五大模型体系,包括文本大模型、多模态大模型、3D大模型、视频大模型和音乐大模型。
在大模型方面,团队在2月推出MoE大语言模型「天工2.0」,紧接着4月又迭代了4000亿参数的「天工3.0」,性能大幅超越Grok-1,一举成为全球最大的开源MoE。
与此同时,音乐生成大模型「天工SkyMusic」正式诞生。6月,昆仑万维开源了2000亿稀疏大模型Skywork-MoE。再到11月,4o和o1版模型相继诞生。
不仅如此,昆仑万维的影响力已遍布全球市场。
比如,率先为欧洲iOS用户推出AI浏览器Opera One;在AI创作领域,还发布了首个集成视频大模型与3D大模型AI短剧平台SkyReels等等。
目前,公司在全球平均有近4亿月活,海外收入占比高达89.7%,在社交、游戏、音乐等领域已经形成壁垒。
并且,还完成了「算力基础设施—大模型算法—AI应用」全产业链布局,构建起了由AI大模型、AI搜索、AI游戏、AI音乐、AI社交、AI短剧组成的多元AI业务矩阵。
昆仑万维的实践带来的启示是,AI落地不仅仅需要强大的技术能力,更需要的是对应用场景的深刻理解。
正是这种扎根于实际应用场景的技术研发思路,使得团队能够准确把握用户需求,将过往积累的能力快速转化为解决世界问题的产品。
这次,4o和o1在天工全新上线,又将成为这款应用破局的下一个爆发点。
不仅如此,昆仑万维对AGI发展路径的思考极具前瞻性。
回顾过去两年,科技圈对AGI的讨论可谓是起起落落。特别是2024年年初,随着Sora诞生之后,许多人一度陷入过度乐观的狂热,认为AGI实现就在一两年之内。
然而到了年中,这股热潮又迅速消退,悲观论调开始盛行——AGI遥遥无期。
昆仑万维创始人周亚辉对未来30年,做出了富有远见的判断:人类社会将从感知转向表达,创作和自我表达将成为增长最快的曲线。AGI时代的标志是人形机器人真正进入社会,2030年之后才会开始逐步实现通用人工智能AGI。
关于这个时间节点,他从未改变过。
不过,在迈向AGI时代之前,机器人技术的面临着三大核心挑战:空间智能大模型;运动控制技术;机器人商业化定位以及能源问题。这些挑战的突破,皆需要全球顶尖AI科学家的努力。
周亚辉认为,机器人技术发展的进程如何,其在军事领域的应用是一个重要的指标。
未来,如果机器人产业带来超10亿美金市场规模,将会对整个社会结构和社会治理产生重大的影响。
基于这些判断,昆仑万维在2024年初就确立了「实现AGI,让每个人更好地塑造和表达自我」的新使命。
而现在,在这条通往AGI的道路上,他们正在用技术创新和产品落地,一步步将愿景变为现实。
参考资料:
https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_4
天工o1模型:
https://www.tiangong.cn/o1Chat/055
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部