关闭广告

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

新智元2010人阅读


新智元报道

编辑:桃子

【新智元导读】为了争夺有限的GPU,OpenAI内部一度打得不可开交。2024年总算力投入70亿美元,但算力需求依旧是无底洞。恰恰,微软发布了全球首台GB300超算,专供OpenAI让万亿LLM数天训完。

过去一年,OpenAI在算力上斥资70亿美元。

其中,大模型研发占了最大头——50亿美元,而推理计算仅用了20亿美元。


可见,LLM训练正吞噬无尽的算力,这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。

采访中,OpenAI总裁Greg Brockman坦言,「内部如何分配GPU,简直就是一场痛苦与煎熬」。

OpenAI各个团队争抢GPU,那叫一个激烈。最头疼的是,如何去合理分配。


如今,甲骨文、英伟达、AMD等芯片巨头/云服务巨头,纷纷与OpenAI联结,能够解其燃眉之急。

这不,就连曾经最大的「金主爸爸」微软也上阵了。

纳德拉官宣,全球首个配备4600+ GB300的超算率先上线,专攻OpenAI。预计,未来将扩展到十万块GPU。


英伟达称,这一算力巨兽,可以让OpenAI不用数周,仅在数天内训练万亿参数模型。


全球首台GB300超算

数天训出万亿LLM

就在昨天,微软Azure宣布成功交付了,全球首个生产级超大规模AI集群。

它搭载了超4600个GB300 NVL72,配备通过下一代InfiniBand网络互联的Blackwell Ultra GPU。


今年早些时候,微软曾推出GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群,已在OpenAI内部训练部署得到应用。

这一次,GB300 v6虚拟机再次树立了行业标杆。

该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:

  • 72个Blackwell Ultra GPU,搭配36个Grace CPU

  • 通过下一代Quantum-X800 InfiniBand,实现每GPU 800 Gb/s的跨机架横向扩展带宽(2x GB200 NVL72)

  • 机架内130 TB/s的NVLink带宽

  • 37TB高速内存

  • 高达1,440 PFLOPS的FP4 Tensor Core性能


全新设计,为大规模AI超算而生

为打造出最强超算,微软对计算、内存、网络、数据中心、散热和供电等技术栈的每一层,都进行了重新设计。

机架层:低延迟高吞吐

通过NVLink和NVSwitch,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,连接了总计37TB的高速内存,由此消除了内存和带宽瓶颈。

在大模型和长上下文场景下,推理吞吐量大幅提升,为AI智能体和多模态AI带来前所未有的响应速度和扩展性。

同时,Azure部署了采用当今最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树(fat-tree)无阻塞架构,能够跨机架扩展数万个GPU。

此外,Azure散热系统采用独立的「散热器单元」和「设施级冷却方案」。

在为GB300 NVL72这类高密度、高性能集群保持热稳定性的同时,最大限度地减少了水资源消耗。

软件层:全面优化

不仅如此,微软为存储、编排和调度重构的软件栈也经过全面优化,能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。


OpenAI GPU争夺战

一场「痛苦与煎熬」

在OpenAI内部,正上演一场GPU激烈争夺战。


上周四,Greg在一期「Matthew Berman」播客节目中,自曝管理算力资源分配的过程,令人揪心且筋疲力尽。

这太难了,你总能看到各种绝妙的点子,然后又有人带着另一个绝妙的点子来找你,你心想,这个也太棒了。

在OpenAI内部,将算力资源主要分配给「研究」和「应用产品」两个方向。


为了应对算力分配的挑战,OpenAI建立了一套相对清晰的资源分配机制:

  • 高层决策:由奥特曼和Fidji Simo组成的领导团队,决定研究团队与应用团队之间的总体算力划分;

  • 研究团队内部协调:首席科学家和研究负责人,决定研究团队资源分配;

  • 运营层:由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。


OpenAI复杂算力关系网络图

Greg提到,当一个项目接近尾声时,Kevin会重新分配硬件资源,以支持新启动的项目。

算力驱动着整个团队的生产力,此事干系重大。

大家对此都非常在意。人们对「我能否分到算力」这件事所投入的精力与情感强度远超想象。

一直以来,OpenAI多次公开表达其对算力永不满足的需求。

OpenAI首席产品官Kevin Weil曾表示,「我们每次拿到新的 GPU,它们都会被立刻投入使用」。

OpenAI对算力的需求逻辑很简单——

GPU的数量直接决定了AI应用的能力上限。获得的GPU越多,所有人就能使用越多的AI。


不仅OpenAI,整个行业科技巨头也在加码算力投入。小扎透露,Meta正将「人均算力」打造为核心竞争优势。


上个月,奥特曼称,OpenAI正在推出「算力密集型服务」。

当我们以当前模型的成本,将海量算力投入到有趣的新想法上时,能创造出怎样的可能性?

这场算力争夺战中,谁手握最多的算力,将决定谁在AI竞赛中脱颖而出。

参考资料:

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:日本或让美F-35战机带核炸弹部署 以"威慑中国"

枢密院十号 浏览 6096

市场震荡下均衡配置成“关键手”,资金为何青睐中证500指数?

时代周报 浏览 2048

梅努的哥哥现身老特拉福德,衣服上写着“给科比-梅努自由”

懂球帝 浏览 1276

《狙击蝴蝶》开播!看完4集,我想说:都市爱情剧就该这么拍!

娱乐圈笔娱君 浏览 1455

户外品牌除了炸山就没有出路了吗?

诗与星空 浏览 1817

拉波尔塔:回到诺坎普,我流下了一些泪水

懂球帝 浏览 1552

飞傲雪漫天BEATBOX便携CD播放器亮相,预计明年2月上市

IT之家 浏览 1310

包钢板材厂爆炸工人被气浪掀飞 一铁球飞射砸塌二层楼

上游新闻 浏览 3506

曼晚:无论卡里克成绩如何,恩里克、纳格尔斯曼顺位在他前面

懂球帝 浏览 361

伊朗局势趋紧 美国从黎巴嫩撤人

澎湃新闻 浏览 568

长安汽车董事长朱华荣:预计到 2030 年,L2 辅助驾驶将成为标配

IT之家 浏览 1931

标普将全球最大稳定币运营商Tether资产评级下调至最低等,质疑挂钩美元能力

华尔街见闻官方 浏览 1484

国乒再添一喜!孙颖莎王曼昱被清华大学拟录取,双子星推免直硕

乒谈 浏览 1701

小S发跨年照纪念大S 对比去年跨年照不止少一个

并不擅长圈粉的铁任 浏览 1144

2025全球十大工程成就发布,DeepSeek、人形机器人等入选

澎湃新闻 浏览 2001

比亚迪10月销售441706辆 新能源累计销售超1420万辆

网易汽车 浏览 1526

现身非洲杯,姆巴佩去看他父亲祖国喀麦隆对阵科特迪瓦的比赛

懂球帝 浏览 1197

SEMA改装展亮相 凯美瑞GT-S概念车官图发布

车质网 浏览 1733

以色列部长回应"虐待环保少女":很自豪

CCTV国际时讯 浏览 1839

三件外套拍出17万美元天价!为什么时装精都想买她的同款?

黎贝卡的异想世界 浏览 460

保剑锋被前妻手撕,不愧是插刀教成员

萌神木木 浏览 1119
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1