切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
重磅!OpenAI推o3-mini新模型,被DeepSeek逼急?定价仍 ...
菲龙网编辑部7
有 744 人收听 TA
149536
主题
149553
回复
175727
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/37
湖北:抢抓春节时机,大力推进楚商回乡投资创业
0/40
上海岁语|曾在韩国求学的餐饮从业者,如何接住这波沪上“韩流”?
0/41
新茶饮春节市场争夺战,下沉市场掘金热潮涌动|新春走基层
0/39
多地楼市推出“迎新年、购新房”活动,房企发力春节营销
0/45
百强房企1月业绩降幅收窄,市场止跌回稳态势延续
0/39
中指研究院:1月百强房企销售总额为2350.3亿元
0/26
2月1日追剧日历,8部长剧更新,电视剧《白色橄榄树》今日开播
0/31
“最侮辱观众智商”的5部烂剧,每一部都被下架停播,实属活该
0/31
无所畏惧2:严晓频和陈创,演活傻白甜和渣男!与以往角色反差大
查看TA的全部帖子>>
重磅!OpenAI推o3-mini新模型,被DeepSeek逼急?定价仍打不过
时间:2025-2-1 10:19
0
62
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
智东西
作者 ZeR0
编辑 漠影
智东西2月1日报道,今日凌晨,OpenAI发布全新推理模型
o3-mini
。
OpenAI称这是其最具成本效益的推理模型,复杂推理和对话能力显著提升,在科学、数学、编程等领域的性能表现超过前代o1模型,同时保持了o1-mini的低成本和低延迟,并
可与联网搜索功能搭配使用
。
o3-mini已在ChatGPT和API中可用,企业版访问权限将在
一周内
推出。
显然DeepSeek登顶美国App Store免费榜给OpenAI制造了压力。今天,
ChatGPT首次向所有用户免费提供推理模型
:用户可在ChatGPT中选择“Reason”按钮来试用o3-mini。
ChatGPT Pro用户可
无限制访问
,Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天
150条消息
。
付费用户还可以选择更高智能的版本“
o3-mini-high
”。该版本需要更长的时间才能生成响应。
和o1模型一样,o3-mini模型的知识截止日期为
2023年10月
,上下文窗口为20万个token,最多可输出10万个token。
有低(low)、中(medium)、高(high)三个版本的o3-mini,供开发者针对其特定用例进行优化。
o3-mini目前不支持视觉功能,因此开发者仍需使用o1进行视觉推理任务。
即日起,o3-mini在Chat Completions API、Assistants API、Batch API中推出。
OpenAI称相较推出GPT-4时,每个token的价格已经降低了95%,同时保持了顶级的推理能力。不过o3-mini的API定价还是高于DeepSeek模型。
▲OpenAI模型与DeepSeek模型API定价对比(智东西制图)
安全方面,OpenAI发现o3-mini在具有挑战性的安全性和越狱方面明显超过GPT-4o。
一、详解o3-mini:科学数学编程能力进化,延迟明显降低
OpenAI发布了o3-mini的37页详细报告,涵盖模型的介绍、数据和训练、测试范围、安全挑战和评估、外部红队测试、准备框架评估、多语言性能以及结论等多个方面。
o3-mini针对科学、数学、编程推理进行了优化,同时响应速度更快。
该模型在GPQA Diamond(理化生)、AIME 2022-2024(数学)、Codeforces ELO(编程)基准测试中,o3-mini的分数分别为0.77、0.80、2036,比肩或超过o1推理模型。
在14种语言的MMLU测试集上,o3-mini的表现显著优于o1-mini,展示了其在多语言理解方面的进步。
外部专家测试人员的评估表明,与o1-mini相比,o3-mini的答案更准确、更清晰,推理能力更强。
在人类偏好评估中,测试人员在56%的时间里更喜欢o3-mini的回答,并观察到在困难的现实问题上重大错误减少了39%。在中推理能力下,o3-mini在一些最具挑战性的推理和智力评估(包括AIME和GPQA)上的表现与o1相当。
o3-mini的智能可媲美o1,提供了更快的性能、更高的效率。中推理能力下,该模型还在额外的数学和事实性评估中表现出色。在A/B测试中,o3-mini的响应速度比o1-mini快24%,平均响应时间为7.7秒,而o1-mini为10.16秒。
数学方面,在低推理能力下,o3-mini的表现与o1-mini相当,而在中推理能力下,o3-mini的表现与o1相当。同时,在高推理能力下,o3-mini的表现优于o1-mini和o1。
具有高推理能力的o3-mini在FrontierMath上的表现优于其前代。
在FrontierMath测试上,当被提示使用Python工具时,具有高推理能力的o3-mini在第一次尝试时解决了超过32%的问题,其中包括超过28%的具有挑战性的(T3)问题。
o3-mini随着推理能力的增加逐渐获得更高的Elo分数,均优于o1-mini。在中推理能力下,它的表现与o1相当。
o3-mini是OpenAI在SWE-bench验证中表现最好的模型。
关于SWE-bench验证结果的更多数据如下图所示。o3-mini (tools) 性能最好,为61%。使用Agentless而非内部工具的o3-mini上市候选产品得分为39%。o1是表现第二好的模型,得分为48%。
在LiveBench编程测试中,高推理能力的o3-mini得分全面超过o1-high。
二、多项安全评估超过GPT-4o
OpenAI还详细介绍了o3-mini在多个安全评估中的表现,称o3-mini在具有挑战性的安全性和越狱评估方面明显超越了GPT-4o。
在不允许的内容评估中,与GPT-4o相比,o3-mini在标准拒绝评估和挑战性拒绝评估中表现相似,但在XSTest中略逊一筹。
在越狱评估中,o3-mini与o1-mini相比,在生产越狱、越狱增强示例、StrongReject和人类来源的越狱评估中表现相当。
在幻觉评估中,使用PersonQA数据集,o3-mini的准确率为21.7%,幻觉率为14.8%,与GPT-4o、o1-mini相比表现相当或更好。
在公平性和偏见评估中,o3-mini在BBQ评估中的表现与o1-mini相似,但在处理模糊问题时的准确性略有下降。
外部红队测试显示,o3-mini在与o1的比较中表现相当,两者都显著优于GPT-4o。
在Gray Swan Arena的越狱测试中,o3-mini的平均用户攻击成功率为3.6%,与o1-mini和GPT-4o相比略高。
准备框架评估涵盖了网络安全、CBRN(化学、生物、放射性、核)、说服力、模型自主性四个风险类别。o3-mini在网络安全方面被评为“低风险”,在CBRN、说服力、模型自主性方面被评为“中等风险”,在生物威胁创建方面的表现达到了“中等风险”阈值,但在核和放射性武器发展方面的能力有限。
按其评级,只有缓解后得分为“中等”或以下的模型才可以部署,得分“高等”或以下的模型才可以进一步开发。
三、o3基准测试成本或超3000万美元,OpenAI正谈判2900亿元新融资
自去年9月发布o1以来,OpenAI一直在迭代其推理模型,去年年底发布的o3模型是其最新一代AI推理模型。
高端版o3模型针对高计算应用,而o3-mini迎合了需要兼顾经济高效的用户需求。这反映了OpenAI试图平衡可访问性和高级付费产品的策略。
这两天也不知道是被DeepSeek逼急了,还是为了给o3-mini预热,OpenAI联合创始人兼CEO萨姆·阿尔特曼在社交平台上非常活跃,又是夸DeepSeek R1令人印象深刻,又说OpenAI将提供更好的模型,又强调更多计算很重要。
昨天他还大张旗鼓地宣布
第一个完整8机架GB200 NVL72服务器
正在微软Azure为OpenAI运行。
印度政府本周五发布的《2024-2025经济调查》报告显示,OpenAI可能已经花费超过
3000万美元
来对其最新AI推理模型o3进行基准测试。
该报告写道,OpenAI o3模型处理能力的突破付出了非常高的代价。ARC-AGI基准测试被认为是最具挑战性的AI任务之一,OpenAI的低效配置模型导致了
20万美元
的成本。高效模型的成本更是高达低效模型的
172倍
,也就是大约
3440万美元
。
阿尔特曼前几天还晒出和微软董事长兼CEO萨提亚·纳德拉的合照,说微软和OpenAI合作的下一阶段将会比任何人想象的都要好得多。
不过微软作为OpenAI最大投资者的名号,可能要被日本软银集团夺走。
近期软银集团创始人兼CEO孙正义与阿尔特曼往来愈发密切,上周宣布联手成立AI巨型项目“星际之门(Stargate)”,未来四年投资5000亿美元(约合人民币3.6万亿元)建设AI基础设施,昨天又被外媒曝出将成为OpenAI新一轮巨额融资的领投方。
据外媒报道,OpenAI正在进行初步谈判,计划在一轮融资中筹集至多
400亿美元(约合人民币2901亿元)
,估值将达到
3000亿美元(约合人民币2.18万亿元)
。日本软银集团将领投此轮融资,正在商谈投资
150亿至250亿美元
,剩余资金将来自其他投资者。
加上之前软银承诺向“星际之门”投资的
逾150亿美元
,最终软银可能会在与OpenAI的合作上投入
超过400亿美元
。这将成为软银迄今最大的投资之一。
结语:狂卷性价比,高质AI推理模型走向普及
此前马斯克等科技大佬已经公开质疑过如何承担建造“星际之门”的巨额成本。在DeepSeek高性能低成本开源模型的影响下,美国AI产业界和华尔街投资者对OpenAI等其他美国AI开发商的大手笔支出策略更是疑窦丛生。
OpenAI最新推出的o3-mini,也被视作抵御DeepSeek模型冲击的最新举措,令业界尤其关注。
在新闻稿中,OpenAI称o3-mini的发布标志着该公司向突破高性价比智能界限的使命又迈进了一步,让高质量的AI更加触手可及,OpenAI致力于走在前沿,构建能够平衡智能、效率和安全性的大规模模型。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部