切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折 ...
菲龙网编辑部7
有 744 人收听 TA
149584
主题
149601
回复
175777
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/39
第一财经星翼大模型联动DeepSeek,财经智能体服务能力再升级
0/41
OpenAI洽谈巨额融资,估值有望达3000亿,部分用于「星际之门」
0/40
零跑汽车:1月交付量2.52万台 同比增长105%
0/41
带看4个月,我被跳单了……
0/44
疯狂刷屏!再创新高!网友:太离谱了
0/34
商业银行支持新质生产力的有效路径—以科创金融为突破口|银行与保险
0/37
如何在A股成为股神?只要买对股,10000变成17000000000丨股市演义
0/38
“太疯狂了!”ATM机现金被取光,每天传票100多笔,网点叫号200人次,银行人忙碌的“现金春运”
0/43
2024年末银行理财支持实体经济资金规模超20万亿元
查看TA的全部帖子>>
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
时间:2025-2-2 01:35
0
51
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
新智元报道
编辑:编辑部 HYZ
【新智元导读】
眼看DeepSeek风头尽显,被逼急的OpenAI果然紧急发布了o3-mni。不光免费用户都能用,每百万输入和输出token价格更是疯狂跳水打骨折价!
o3-mini,真的来了。
刚刚,OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。
诚如奥特曼所言,免费用户直接打开「Reason」即可体验,Plus用户每天会有更多用量,具体来说:
- ChatGPT免费版:首次体验推理模型
- ChatGPT Plus和团队版:每天150次对话限制
- ChatGPT Pro:无限制访问
- ChatGPT Enterprise和ChatGPT Edu:将在一周内可用
- API:向3-5级开发者开放(初期暂不支持图像分析功能)
- 输入1.10美元/百万token、输出4.40美元/百万token
感谢DeepSeek,o3-mini的价格这次算是彻底给打下来了——比OpenAI o1-mini便宜63%,比满血版o1便宜93%。(但仍是GPT-4o mini的7倍左右)
订阅用户已经在第一时间「告别」了o1-mini,还没来得及说再见
OpenAI表示,o3-mini的发布是在追求高效能智能技术道路上的又一重要里程碑。
通过优化科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)领域的推理能力,同时保持较低的成本,让高质量AI技术变得更加平易近人。
值得一提的是,在ChatGPT中,o3-mini采用的是「中等推理强度」,在速度和准确性之间取得平衡。所有付费用户还可以在模型选择器中选择o3-mini-high——响应时间略长但智能水平更高的版本。
目前,由于太过火爆,ChatGPT的项目和自定义GPTs功能都已经被挤崩了。
集成搜索,两种版本可选
去年12月,。相较于上一代o1模型,o3在ARC-AGI等多项基准测试中刷新SOTA。
与o1-mini一样,o3-mini是最具性价比的推理模型,可谓是突破性能边界的「小巨人」。
在STEM领域,尤其是科学、数学和编程等方面,o3-mini性能表现卓越超越o1,并继承了上一代低成本和低延迟的优点。
对于开发者来说,o3-mini简直就是一份「大礼包」,它首次在小型推理模型中支持:包括函数调用、结构化输出和开发者消息、流式传输功能。
开发者可以根据需求选择低、中、高三种推理强度,让o3-mini在处理复杂问题时进行「深度思考」,灵活平衡速度和准确性。
遗憾地是,o3-mini暂不支持视觉功能。
如前所述,从今天起,o3-mini将通过Chat Completions API,Assistants API和Batch API向3-5级指定开发者开放。
同时,o3-mini还整合了搜索功能,能够提供带有相关网络来源链接最新响应。
一起来看看这款「小而美」的o3-mini有什么过人之处。
快速、强大、专为STEM领域推理优化
与其前身OpenAI o1类似,OpenAI o3-mini专门针对STEM推理进行了优化。
采用了中等推理强度的o3-mini,在数学、编程和科学领域的表现与o1不相上下,且响应速度更快。
报告地址:https://cdn.openai.com/o3-mini-system-card.pdf
专家测试评估显示,o3-mini相比o1-mini能够生成更准确、更清晰的答案,推理能力更强。
在测试中,o3-mini的响应结果获得了56%的偏好度,在处理复杂现实问题时的重大错误率更是降低了39%。
在中等推理强度设置下,o3-mini在最具挑战性的推理和智能评估项目(包括AIME和GPQA)中,均达到了与o1相当的水平。
数学竞赛(AIME 2024)
在低推理强度下,o3-mini达到了与o1-mini相当的水平;在中等推理强度下,其表现可与o1媲美;而在高推理强度下,o3-mini的表现更是超越了o1-mini和o1。
博士级科学问题(GPQA Diamond)
研究级数学(FrontierMath)
在高推理强度模式下,o3-mini在FrontierMath中的表现优于前代产品。当配合Python工具使用时,高推理强度的o3-mini能够一次性解决超过32%的测试题目,其中包括28%以上的T3级问题。
编程竞赛(Codeforces)
随着推理强度的提升,OpenAI o3-mini的Elo得分不断提高,各层级表现均优于o1-mini。在中等推理强度下,其表现已能与o1相媲美。
软件工程(SWE-bench Verified)
o3-mini在高推理强度模式下,使用开源Agentless框架能达到39%的成功率,使用内部工具框架则可达到61%的成功率。
LiveBench编码
人类偏好评估
外部专家评测结果显示,o3-mini较o1-mini表现出更强的推理能力,能够生成更准确、更清晰的答案,尤其是在STEM领域中。在对比测试中,o3-mini获得了56%的用户偏好度,且在处理复杂现实问题时的重大错误率降低了39%。
在技术报告中,o3-mini编程性能超越了GPT-4o和o1-preview,与o1不相上下。
模型的速度与性能
o3-mini在保持与o1相当智能水平的同时,实现了更快的运行速度和更高的计算效率。
除前文提到的STEM评估外,在中等推理强度下,o3-mini在其他数学能力和事实准确性测试中均取得了显著优势。
对比测试(A/B Testing)结果显示,o3-mini的平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。
o1-mini和o3-mini(medium)的延迟对比
安全评估
OpenAI在训练o3-mini确保其安全响应,采用的关键技术之一是审慎对齐(deliberative alignment)。
这项技术使模型能够在响应用户提示词前,对人工制定的安全规范进行全面推理。
与o1相似,o3-mini在高难度安全性测试和越狱评估中,明显优于GPT-4o。
在正式部署前,研究人员采用与o1相同的准备方法,结合外部红队测试和安全性评估,对o3-mini的安全风险进行了全面评估。
禁止内容评估
越狱评估
OpenAI急了
去年年底放出o3和o3-mini的预览时,CEO奥特曼就曾表示,o3-mini将会在1月份发布。
随后,奥特曼又在1月17日预告称,o3-mini会在几周内发布。
现在,o3-mini果然如约而至(卡在ddl最后一天),但外面的世界已经是天差地别。
面对正在快速崛起的DeepSeek-R1,o3-mini存在着一个关键问题——「不开源」。
这也就意味着,它无法离线使用、无法下载代码,也无法以相同的程度进行自定义。对于很多应用过来说,它的吸引力相对于R1明显大打折扣。
在上下文窗口方面,DeepSeek-R1约为128K/130K token,而o3-mini略胜一筹达到了200K token。其中,每个输出最多100K token,跟满血版o1相同。
在价格方面,相比于输入/输出token分别为0.14/0.55美元的DeepSeek-R1,o3-mini依然贵出了天际。
但作为一款美国模型,o3-mini在身份上无疑占尽了好处:应该会是欧美很多企业的首选。
奥特曼亲自率队
这一次,最强最新的o3-mini模型训练,奥特曼本尊下场亲自率队。研究项目主管分别是Carpus Chang和Kristen Ying。
接下来,如果说OpenAI还藏在什么杀手锏,那就是满血版的o3了。 根据12月时的说法,它将在「此后不久」发布。
参考资料:
https://openai.com/index/openai-o3-mini/
https://openai.com/index/o3-mini-system-card/
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部