收起左侧
发新帖

马斯克4个月建成世界最强超算!10万块H100,将训练Grok-3

时间:2024-9-5 09:30 0 211 | 复制链接 |

马上注册,结交更多好友

您需要 登录 才可以下载或查看,没有账号?立即注册

x
DSC0000.jpg
智东西
编译   吴浪娜
编辑   漠影
智东西9月4日消息,据Business Insider、《财富》杂志报道,埃隆·马斯克(Elon Musk)周二在社交平台X上宣布,其AI初创公司xAI于上周末上线了名为“Colossus”的超级计算机。
该集群拥有10万块英伟达H100处理器,是世界上最强大的AI训练系统。若xAI能够获得5万块英伟达新推出的H200系列处理器,Colossus的规模将在几个月内扩大1倍。
Colossus从设计到完成仅用了122天,将被用于训练xAI的大型语言模型Grok。马斯克还说,希望在12月发布Grok-3。Grok与大家熟知的GPT-4是竞争对手。
DSC0001.jpg
▲马斯克在X上宣布Colossus已上线。(图源:Business Insider)
一、10万块H100处理器,xAI通过特斯拉间接保障芯片供应
Colossus搭载了10万块英伟达标准Hopper H100处理器,这是任何其他单个AI计算集群都无法比拟的。
高性能GPU是强大AI模型所必需的计算能力来源。
马斯克估计,如果xAI能够获得5万块英伟达新推出的、更先进的H200系列芯片(其性能大约是前者的两倍),Colossus的运算能力将在几个月内增加1倍。
马斯克于2023年7月创立了xAI,直到今年6月才选定美国孟菲斯作为Colossus的建设地点。Colossus仅用122天完成上线,建设速度可谓惊人。
在X上,英伟达数据中心账户回应马斯克的帖子称:“令人兴奋的是,世界上最大的GPU超级计算机Colossus,在创纪录的时间内上线了。”
自2022年底ChatGPT发布以来,AI的炒作热潮让各家公司争相抢购英伟达的芯片。由于需求激增和供应受限,导致芯片短缺。
尽管获取芯片并不容易,但各家公司仍会想各种办法来确保芯片的供应,并将其投入使用,以便在竞争中领先对手。
马斯克作为英伟达的重要客户,承诺仅特斯拉一家今年就会在其硬件上花费30亿到40亿美元。
特斯拉将英伟达已经交付给它的AI芯片转手给了xAI,在芯片供应方面xAI获得了先发优势。
二、Grok-3或将成为最强大AI,特斯拉可能投资xAI
Colossus将被用于训练xAI的大语言模型Grok-3。
“我们希望能在12月发布Grok-3,到那时,Grok-3应该是世界上最强大的AI。”马斯克曾在播客中说道。
许多特斯拉专家推测,它最终将为特斯拉的人形机器人Optimus提供动力。
马斯克对此寄予厚望,认为这个具有战略意义的灯塔项目,每年可能为特斯拉带来1万亿美元的利润。
上个月,Grok-2的早期测试版已向用户推出。
它仅在大约1.5万块英伟达H100处理器上进行了训练,但根据一些聊天机器人排行榜的标准,它已经是功能强大的AI大型语言模型之一。
风投公司红杉资本(Sequoia Capital)的合伙人肖恩·马奎尔(Shaun Maguire)在X上写道,xAI团队现在“可以使用世界上最强大的训练集群”来构建其Grok聊天机器人的下一块版本。他补充说:“在过去几周里,Grok-2已经迅速跻身最先进模型之列。”
由1.5万块到10万块,GPU数量增加近7倍,这说明,马斯克并不打算在开发通用人工智能(AGI)的竞争中向OpenAI屈服。他曾因担心谷歌主导这项技术,而在2015年底帮助萨姆·阿尔特曼(Sam Altman)共同创立了OpenAI。后来他与阿尔特曼发生争执,现在正再次起诉OpenAI。
此外,xAI在5月的B轮融资中筹集了60亿美元,得到了安德森·霍洛维茨(Andreessen Horowitz)和红杉资本等风险投资公司的支持。
特斯拉可能是下一家投资马斯克xAI的公司。
马斯克还谈道,他将向特斯拉董事会提议,就是否向xAI投资约50亿美元进行投票。这一提议受到了许多股东的欢迎。
他曾在X上写道,“我之前说过,特斯拉今年将在AI相关支出上花费大约100亿美元,其中约一半是内部支出,主要是特斯拉设计的AI推理计算机和所有汽车中都配备的传感器,以及Dojo(特斯拉定制的AI超级计算机)。”
三、Colossus规模超越Meta公司集群,马斯克与扎克伯格打擂台
风投公司Air Street Capital的创始人兼普通合伙人纳森·贝纳什(Nathan Benaich)一直在追踪科技公司收购的H100 GPU数量。
他统计Meta共有35万块,xAI有10万块。马斯克的另一家公司特斯拉则有3.5万块。
在7月发表的一篇研究论文中,Meta表示其Llama 3大型语言模型的最大版本是在1.6万块H100 GPU上训练的。
3月,该公司宣布“对Meta的AI未来进行重大投资”,建立了两个各有2.4万块GPU的集群,以支持Llama 3的开发。
这说明,xAI最新的训练集群Colossus比用于训练Meta最大AI模型的集群要大得多。
这让马斯克得以与硅谷的竞争对手马克·扎克伯格一较高下。
结语:xAI产品战略待明朗,运行Colossus为城市资源增压
与大多数AI公司一样,xAI技术的商业化仍存在很大的不确定性。“xAI能够在马斯克的带领下筹集到如此多的资金并取得进展,这令人印象深刻,但他们的产品战略仍不明朗。”贝奈克告诉Business Insider。
Colossus的上线给孟菲斯这座城市带来了机遇。市政官员以极快的速度同意了该项目。但它也将给城市的资源带来压力。据市政公用事业部门的官员估计,该系统每天需要多达100万加仑的水来冷却服务器,并且将消耗高达150兆瓦的电力。尽管如此,马斯克认为任何值得做的事情都值得快速完成,以避免落后于竞争对手。
来源:Business Insider、《财富》
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

扫码添加微信客服
快速回复 返回列表 返回顶部