DeepSeek开源第四弹来了！梁文锋参与研发

马上注册，结交更多好友

您需要登录才可以下载或查看，没有账号？立即注册

x

2025.02.27

本文字数：1709，阅读时长大约3分钟
导读：通过这些分享可以清晰了解DeepSeek是如何最大限度利用GPU能力的。
作者 |第一财经刘晓洁
2月27日，DeepSeek开源周(OpenSourceWeek)第四弹来了，DeepSeek在X上宣布这次开源的是三项优化并行策略，并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术，通过这些阐述可以清晰了解团队是如何精细地优化计算和通信，最大限度利用GPU能力的。

这三项优化并行策略其中包括DualPipe，这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法，这种算法能够完全重叠前向和后向计算通信阶段，与传统方法相比减少了“流水线气泡”（设备在某些时刻的空闲等待）。在DualPipe的开发团队署名中，包括创始人梁文锋。
优化并行策略第二项是EPLB(Expert Parallelism Load Balancer，专家并行负载均衡器)，它针对V3/R1模型，解决MoE(混合专家)模型在分布式训练和推理中的负载不平衡问题。
当使用专家并行(EP)时，不同的专家被分配到不同的GPU。由于不同专家的负载可能会根据当前的工作负载而变化，因此保持不同GPU的负载平衡非常重要。DeepSeek曾在V3论文中提到，团队采用冗余专家策略来重复重载专家，他们创新地将重复的专家打包到GPU上，以确保不同GPU之间的负载平衡。
在第三部分，DeepSeek直接分享了来自训练和推理框架的性能分析数据，以帮助社区更好地了解通信计算重叠策略和低级实现细节。这些数据是用PyTorch Profiler采集的，下载后可以直接在Chrome或Edge浏览器中打开，进行可视化分析，DeepSeek还模拟了绝对平衡的MoE 路由策略用于性能分析。
DeepSeek这四天的发布都与Infra层的算法有关，分享团队最大限度利用GPU能力的技术细节。大模型生态社区OpenCSG(开放传神)创始人陈冉此前对第一财经举例表示，“相当于以前DeepSeek是直接给一辆车，告诉大家这辆车续航900公里，但是现在DeepSeek在深挖，用什么方式能够开到900公里。”DeepSeek的模型为什么能够实现较好的效果，对应有一些算法和相应的框架，而这些“脚手架”的开源有利于之后的生态搭建。
陈冉判断，DeepSeek的代码开源或许会影响一批做AI Infra层的从业者，“AI Infra层的人要找新的方向。”但他同时表示，这种开源是一把双刃剑，如果能将DeepSeek开源的内容用好可能也会得利，“用不好就被冲击”。
此前三日，DeepSeek陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA，用于MoE模型训练和推理的DeepEP通信库，以及可支持MoE的FP8 GEMM代码库DeepGEMM。
从GitHub上获得的星标来看，这些项目颇受欢迎，截至发稿，FlashMLA已在GitHub获得超过1万星标，DeepEP的星标已有6000，DeepGEMM目前超过3700，最新发布的DualPipe星标超过700。
就在昨日，DeepSeek还在海内外同时宣布了API错峰优惠，自2月26日起，北京时间每日00:30至08:30的夜间空闲时段，API调用价格大幅下调：DeepSeek-V3降至原价50%，DeepSeek-R1更低至25%。DeepSeek鼓励用户充分利用这一时段，享受更经济更流畅的服务体验。
另外，也有消息称，DeepSeek正寻求巩固自身优势，尽早推出R2模型，消息提到DeepSeek原本计划在5月初发布R2模型，目前会加快这一速度。DeepSeek目前并未对此回应。
此前DeepSeek在R1论文中提到，R1 的性能将在下一个版本得到改善，因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加，模型解决复杂推理任务的能力持续稳定提升，且会自然涌现出一些复杂行为能力。
业界认为，DeepSeek-R2的发布可能是AI行业的一个关键节点。
微信编辑| 生产队的驴（拉磨版）

菲龙网编辑部7

本文来自

科技新闻

菲龙网编辑部7发布过的帖子

DeepSeek开源第四弹来了！梁文锋参与研发

马上注册，结交更多好友

浏览过的版块

站长推荐 /1