切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
OpenAI推出o3-mini:对抗DeepSeek崛起的新利器? ...
菲龙网编辑部7
有 744 人收听 TA
149584
主题
149601
回复
175777
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/37
第一财经星翼大模型联动DeepSeek,财经智能体服务能力再升级
0/39
OpenAI洽谈巨额融资,估值有望达3000亿,部分用于「星际之门」
0/37
零跑汽车:1月交付量2.52万台 同比增长105%
0/37
带看4个月,我被跳单了……
0/41
疯狂刷屏!再创新高!网友:太离谱了
0/32
商业银行支持新质生产力的有效路径—以科创金融为突破口|银行与保险
0/34
如何在A股成为股神?只要买对股,10000变成17000000000丨股市演义
0/35
“太疯狂了!”ATM机现金被取光,每天传票100多笔,网点叫号200人次,银行人忙碌的“现金春运”
0/41
2024年末银行理财支持实体经济资金规模超20万亿元
查看TA的全部帖子>>
OpenAI推出o3-mini:对抗DeepSeek崛起的新利器?
时间:2025-2-2 01:34
0
38
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
文 | 科技旋涡
为了应对开源竞争对手DeepSeek-R1的迅速崛起,OpenAI发布了新的专有AI模型——o3-mini。然而,这款新模型是否足以削弱DeepSeek的成功,仍然是一个疑问。
今天,OpenAI正式发布了o3-mini,这是其“推理者”系列中的第二款模型。该系列的模型需要更多时间进行“思考”,分析自己的过程,并反思自己的“思维链”,然后才能回答用户的提问。最终,这款模型能够在数学、科学、工程等多个领域提供类似博士生或学位持有者的解答。
o3-mini现已在ChatGPT和OpenAI的API中提供,包括免费的用户也可以使用。而且,它的性能比之前的高端模型o1以及其低参数版本o1-mini更优,且价格更低。
尽管o3-mini发布的时机被认为可能是对DeepSeek-R1的回应,但需要指出的是,o3和o3-mini早在2024年12月就已经宣布。OpenAI的CEO Sam Altman曾表示,由于开发者和研究人员的反馈,o3将在ChatGPT和OpenAI API上同时发布。
与DeepSeek-R1不同,o3-mini并不会以开源形式发布——这意味着用户无法下载代码进行离线使用,也不能像DeepSeek-R1那样进行高度定制,这可能会在某些应用场景下限制它的吸引力。
OpenAI没有提供关于更大版本o3模型的更多细节,这款模型早在2024年12月与o3-mini一同发布。当时,OpenAI表示o3模型的测试将会有几周的延迟,**测试需要等待一段时间。
性能与特点
类似于o1,o3-mini在数学、编程和科学推理方面表现出色。
在使用中等推理难度时,o3-mini的表现与o1相当,但它有以下几大优势:
·
相比o1-mini,响应速度提高了24%(例如,o1-mini的响应时间为12.8秒,处理100个token的输出。而o3-mini的响应时间将缩短至约10.32秒)。
·
准确性提升,外部测试者更倾向于选择o3-mini的回答,偏好率达到56%。
·
复杂的现实问题中,错误率减少了39%。
·
在编程和STEM任务中表现优异,尤其是在高推理难度时。
·
提供三种推理难度级别(低、中、高),使得用户和开发者可以在准确性与速度之间找到最佳平衡。
o3-mini的上下文窗口为200,000个token,每次输出最多为100,000个token。这一性能与o1相同,并且优于DeepSeek-R1的上下文窗口(约128,000到130,000个token)。但这一数字仍然远低于Google Gemini 2.0 Flash Thinking的新上下文窗口,后者支持高达100万个token。
·
GPQA Diamond: 这是一个评估模型在通用问题解答能力上的指标。
·
AIME 2022-2024: 这是美国数学邀请赛(American Invitational Mathematics Examination)的一个分数段,用于评估模型在数学推理和解题能力上的表现。
·
Codeforces ELO: 这是编程竞赛平台Codeforces上的一种评分系统,类似于国际象棋中的Elo评级系统,用于评估模型在编程任务上的表现。
虽然o3-mini专注于推理,但目前它还不具备视觉能力。如果开发者和用户需要上传图片或文件,仍然需要使用o1。
竞争加剧
o3-mini的发布标志着OpenAI首次向免费用户提供推理模型。此前,o1系列模型仅限于ChatGPT Plus、Pro等付费用户使用,或者通过OpenAI的付费API。
通过2022年11月推出ChatGPT,OpenAI开启了大语言模型(LLM)聊天机器人的新领域。而在2024年9月,OpenAI推出o1系列模型,正式开创了推理模型这一新类别,采用了新的训练机制和架构。
然而,OpenAI并没有将o1开源,这与其名称和最初的创立理念相悖。与之相对,DeepSeek的R1模型采用了开源方式,且完全免费,允许全球用户自由使用、修改和定制。R1模型的训练成本远低于o1和其他顶级实验室的模型,因此在消费市场和企业市场中获得了广泛应用,甚至OpenAI的投资方微软和Anthropic的支持者亚马逊也快速将其添加到自己的云市场中。
DeepSeek还推出了免费的应用和网站,并允许用户对R1模型进行修改和定制,这使得它在消费者和企业市场迅速崛起。DeepSeek的这种开源政策以及低成本训练,使其成为了一个强有力的竞争者。
ChatGPT中的可用性
o3现在在全球范围内推向ChatGPT Free、Plus、Team和Pro用户,Enterprise和Education版本将在下周推出。
免费用户可以通过选择聊天栏中的“reason(推理)”按钮或重新生成回答来首次体验o3-mini。
Plus和Team用户的消息限制提高了3倍,从每天50条增加到150条。
Pro用户将能够无限制使用o3-mini以及一个新的更高推理版本——o3-mini-high。
此外,o3-mini现在支持与搜索功能的集成,用户将能够获得包含相关网页链接的回答。这个功能仍处于初期阶段,OpenAI正在不断改进推理模型中的搜索能力。
API集成与定价
对于开发者,o3-mini已通过Chat Completions API、Assistants API和Batch API提供。该模型支持功能调用、结构化输出和开发者消息,便于开发者将其集成到实际应用中。
o3-mini的最大优势之一是其成本效益:它比o1-mini便宜63%,比完整的o1模型便宜93%,每百万token的进出费用分别为1.10美元/4.40美元(享有50%的缓存折扣)。
尽管如此,DeepSeek的R1模型的API价格仍然更具优势,仅为0.14美元/0.55美元每百万token进出。但考虑到DeepSeek总部位于中国,涉及到一些国外老生常谈的“用户数据流动的安全与地缘政治问题”,OpenAI可能仍将是美国和欧洲一些注重安全的客户和企业的首选。
开发者可以根据应用需求调整推理难度(低、中、高),以控制延迟和准确性之间的平衡。
安全性与隐私保护
OpenAI表示,在o3-mini中采用了“深思熟虑对齐”的方法。这意味着模型会思考并理解人类编写的安全指南,理解这些指南的意图和预防的危害,并且会提出自己的方法确保这些危害得到有效避免。OpenAI表示,这样可以使模型在讨论敏感话题时更加宽容,同时保持高安全性。
OpenAI称,o3-mini在处理安全性和越狱挑战时,优于GPT-4o。该模型在发布前进行了广泛的安全性测试。
最近有一些国外的**报道指出,DeepSeek的R1模型在50次越狱测试中“全部失败”,这将使得一些国外媒体宣传o3-mini在需要高安全性的场合更具优势。
结语:未来展望
o3-mini的发布标志着OpenAI进一步努力让先进的推理AI变得更加普及和高效,特别是在DeepSeek R1等竞争者的压力下。Google也在推出其竞争性推理模型Gemini 2 Flash Thinking,并扩展了输入上下文,支持高达100万个tokens。
OpenAI聚焦于STEM推理和成本效益,旨在扩大AI驱动的解决方案在消费者和开发者中的应用。
然而,随着OpenAI不断扩展雄心,最近宣布的一个由软银支持的5000亿美元数据中心基础设施项目Stargate,问题仍然存在:它的战略是否足以让这些巨额投资获得回报?随着开源模型不断接近OpenAI的性能并在成本上超越它,OpenAI是否能凭借其安全性、强大的能力、易用的API和用户友好的界面维持现有客户,特别是在企业市场上?我们将继续关注这些发展。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部