切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
DeepSeek开源第四弹来了!梁文锋参与研发 ...
菲龙网编辑部7
有 744 人收听 TA
150948
主题
150965
回复
177185
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/57
两部门:探索完善新能源汽车全产业链金融服务
0/72
两部门:围绕企业碳配额或国家核证自愿减排量(CCER),稳妥有序开展碳金融相关业务
0/63
两部门:强化对钢铁、有色金属、石化化工等领域工艺革新和设备更新改造升级的中长期贷款支持
0/60
两部门印发《银行业保险业绿色金融高质量发展实施方案》
0/63
两部门:保险公司要加强保险资金运用,通过投资绿色债券、绿色资产支持证券等形式参与绿色项目投资
0/53
两部门:银行保险机构要有序拓展绿色消费业务,支持企业和个人购买、消费绿色低碳产品
0/55
两部门:鼓励有条件的银行保险机构研究探索转型计划
0/56
今年以来深圳多家银行网点终止营业,数字化转型加速
0/66
江苏银行落地全省首笔造纸行业转型金融贷款
查看TA的全部帖子>>
DeepSeek开源第四弹来了!梁文锋参与研发
时间:2025-2-28 09:33
0
82
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
2025.02.
27
本文字数:1709,阅读时长大约3分钟
导读
:通过这些分享可以清晰了解DeepSeek是如何最大限度利用GPU能力的。
作者 |
第一财经 刘晓洁
2月27日,DeepSeek开源周(OpenSourceWeek)第四弹来了,DeepSeek在X上宣布这次开源的是三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术,通过这些阐述可以清晰了解团队是如何精细地优化计算和通信,最大限度利用GPU能力的。
这三项优化并行策略其中包括DualPipe,这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,这种算法能够完全重叠前向和后向计算通信阶段,与传统方法相比减少了“流水线气泡”(设备在某些时刻的空闲等待)。在DualPipe的开发团队署名中,包括创始人梁文锋。
优化并行策略第二项是EPLB(Expert Parallelism Load Balancer,专家并行负载均衡器),它针对V3/R1模型,解决MoE(混合专家)模型在分布式训练和推理中的负载不平衡问题。
当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会根据当前的工作负载而变化,因此保持不同GPU的负载平衡非常重要。DeepSeek曾在V3论文中提到,团队采用冗余专家策略来重复重载专家,他们创新地将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。
在第三部分,DeepSeek直接分享了来自训练和推理框架的性能分析数据,以帮助社区更好地了解通信计算重叠策略和低级实现细节。这些数据是用PyTorch Profiler采集的,下载后可以直接在Chrome或Edge浏览器中打开,进行可视化分析,DeepSeek还模拟了绝对平衡的MoE 路由策略用于性能分析。
DeepSeek这四天的发布都与Infra层的算法有关,分享团队最大限度利用GPU能力的技术细节。大模型生态社区OpenCSG(开放传神)创始人陈冉此前对第一财经举例表示,“相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到900公里。”DeepSeek的模型为什么能够实现较好的效果,对应有一些算法和相应的框架,而这些“脚手架”的开源有利于之后的生态搭建。
陈冉判断,DeepSeek的代码开源或许会影响一批做AI Infra层的从业者,“AI Infra层的人要找新的方向。”但他同时表示,这种开源是一把双刃剑,如果能将DeepSeek开源的内容用好可能也会得利,“用不好就被冲击”。
此前三日,DeepSeek陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA,用于MoE模型训练和推理的DeepEP通信库,以及可支持MoE的FP8 GEMM代码库DeepGEMM。
从GitHub上获得的星标来看,这些项目颇受欢迎,截至发稿,FlashMLA已在GitHub获得超过1万星标,DeepEP的星标已有6000,DeepGEMM目前超过3700,最新发布的DualPipe星标超过700。
就在昨日,DeepSeek还在海内外同时宣布了API错峰优惠,自2月26日起,北京时间每日00:30至08:30的夜间空闲时段,API调用价格大幅下调:DeepSeek-V3降至原价50%,DeepSeek-R1更低至25%。DeepSeek鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。
另外,也有消息称,DeepSeek正寻求巩固自身优势,尽早推出R2模型,消息提到DeepSeek原本计划在5月初发布R2模型,目前会加快这一速度。DeepSeek目前并未对此回应。
此前DeepSeek在R1论文中提到,R1 的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。
业界认为,DeepSeek-R2的发布可能是AI行业的一个关键节点。
微信编辑
| 生产队的驴(拉磨版)
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部