切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
微软自曝花数亿美元为OpenAI组装超算开发ChatGPT 使用数 ...
菲龙网编辑部7
有 744 人收听 TA
147021
主题
147038
回复
173128
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/87
理财情报局 | 再现0费率!年末银行理财开启“花式”营销,头部理财公司发起自购含权理财
0/86
新希望金融科技曹滔滔:坚守边界,以科技力量助力中小商业银行数字化
0/58
友邦人寿总经理张晓宇升任友邦保险集团区域首席执行官,余宏拟任友邦人寿CEO
0/56
金价连续5日上涨 触及2700美元/盎司
0/59
对话汽车流通协会周伟:银行或将继续在汽车金融市场保持优势
0/64
用户比例达到88%!手机银行已成金融服务主导渠道
0/56
视频 从整个ETF持仓量的变化来看,投资者对黄金的一个热情和策略有哪些调整?
0/59
平安健康险亮相“乌镇峰会” 科技向善助力普惠金融发展
0/53
视频 丨 黄金振荡期,投资者可以采取什么样的交易策略?
查看TA的全部帖子>>
微软自曝花数亿美元为OpenAI组装超算开发ChatGPT 使用数万个英伟达芯片
时间:2023-3-14 11:05
0
256
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
3月14日消息,美国当地时间周一,微软发文透露其斥资数亿美元帮助OpenAI组装了一台AI超级计算机,以帮助开发爆火的聊天机器人ChatGPT。这台超算使用了数万个英伟达图形芯片A100,这使得OpenAI能够训练越来越强大的AI模型。
OpenAI试图训练越来越大的AI模型,这些模型正在吸收更多的数据,学习越来越多的参数,这些参数是AI系统通过训练和再培训找出的变量。这意味着,OpenAI需要很长时间才能获得强大的云计算服务支持。
为应对这一挑战,当微软于2019年向OpenAI投资10亿美元时,该公司同意为这家AI研究初创公司组装一台巨大的尖端超级计算机。但问题在于,微软没有任何OpenAI所需的东西,也不完全确定其能否能在不破坏Azure云服务的情况下构建如此庞大的设备。
为此,微软不得不想方设法将英伟达的数万个A100图形芯片连接起来,并改变服务器在机架上的放置方式以防止断电。A100图形芯片是培训AI模型的主力。微软负责云计算和AI业务的执行副总裁斯科特·格思里(Scott Guthrie)没有透露该项目的具体成本,但其暗示可能达数亿美元。
微软Azure AI基础设施总经理尼迪·卡佩尔(Nidhi Cappell)说:“我们构建了一个系统构架,它可以在非常大的范围内运行且十分可靠,这是ChatGPT成功的重要原因。这只是我们从中得出的一个模式,还会有许许多多其他的模型。”
基于这项技术,OpenAI发布了爆火的聊天机器人ChatGPT。在去年11月上线后几天,它就吸引了100多万用户,现在正被纳入其他公司的商业模式。随着企业和消费者对ChatGPT等生成式人工智能(AIGC)工具的兴趣越来越大,微软、亚马逊和谷歌等云服务提供商将面临更大的压力,以确保他们的数据中心能够提供所需的巨大算力。
与此同时,微软现在也开始使用它为OpenAI构建的基础设施来训练和运行自己的大型AI模型,包括上个月推出的新必应搜索聊天机器人。该公司还向其他客户销售该系统。这家软件巨头已经在研发下一代AI超级计算机,这是微软与OpenAI扩大合作的一部分,微软在交易中增加了100亿美元投资。
格思里在接受采访时说:“我们并没有为OpenAI定制任何东西,尽管其最初是定制的,但我们总是以一种泛化的方式构建它,这样任何想要训练大型语言模型的人都可以利用同样的改进技术。这真的帮助我们在更广泛的范围内成为更好的AI智能云。”
训练规模庞大的AI模型需要在某个地方有大量相互连接的图形处理单元,就像微软组装的AI超级计算机那样。一旦模型投入使用,回答用户查询的所有问题(这个过程称为推理)需要略有不同的设置。为此,微软还部署了用于推理的图形芯片,但这些处理器(成千上万个)在地理上分散在该公司60多个数据中心里。微软表示,现在该公司正在添加用于AI工作负载的最新英伟达图形芯片H100以及最新版Infiniband网络技术,以更快地共享数据。
新的必应仍处于测试阶段,微软正在逐步从申请测试名单中增加更多用户。格思里的团队与大约20多名员工每天都要举行会议,他将这些员工称为“pit crew”,原指赛车中车队后勤维护组的技师。这些人的工作是找出如何让更多的计算能力快速上线,以及解决突然出现的问题。
云服务依赖于数千个不同的部件,包括服务器、管道、建筑物的混凝土、不同的金属和矿物,而任何一个组件的延迟或短缺,无论多么微小,都可能导致整个项目中断。最近,“pit crew”团队不得不帮助解决电缆托盘短缺的问题,这是一种篮状的装置,用来固定从机器上顺下来的电缆。因此,他们设计了一种新的电缆桥架。格思里说,他们还致力于研究如何在世界各地的现有数据中心压榨尽可能多的服务器,这样他们就不必等待新的建筑竣工。
当OpenAI或微软开始训练大型AI模型时,这项工作需要一次完成。工作被分配给所有的GPU,在某些时候,这些GPU需要相互交流来分享他们所做的工作。对于AI超级计算机,微软必须确保处理所有芯片之间通信的网络设备能够处理这种负载,并且它必须开发出最大限度地利用GPU和网络设备的软件。该公司现在已经开发出一种软件,可以用来训练数十万亿个参数的AI模型。
因为所有机器都是同时启动的,微软不得不考虑安放它们的位置,以及电源该应该放在哪里。否则,数据中心最终可能会断电。Azure全球基础设施总监阿利斯泰尔·斯皮尔斯(Alistair Speirs)说,微软还必须确保能够冷却所有这些机器和芯片,该公司在较凉爽的气候中使用蒸发;冷却方式、在较冷的气候中使用室外空气,在炎热的气候中使用高科技沼泽冷却器。
格思里说,微软将继续致力于定制服务器和芯片设计,以及优化供应链的方法,以尽可能地提高速度、提高效率和节省成本。他说:“现在令世界惊叹的AI模型是基于我们几年前开始建造的超级计算机构建的,而新模型将使用我们现在正在训练的新超级计算机。这台计算机要大得多,可以实现更复杂的技术。”
微软已经在努力使Azure的AI功能更加强大,推出了新的虚拟机,使用英伟达的H100和A100 Tensor Core GPU,以及Quantum-2 InfiniBand网络。微软表示,这将允许OpenAI和其他依赖Azure的公司训练更大、更复杂的AI模型。
微软Azure AI企业副总裁埃里克·博伊德(Eric Boyd)在一份声明中说:“我们发现,我们需要构建专门的集群,专注于支持大量的培训工作,而OpenAI就是早期的证据之一。我们正与他们密切合作,了解他们在建立训练环境时需要的关键条件,以及他们需要的其他东西。”(小小)
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部