全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

【新智元导读】两天前,马斯克得意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。此消息一出,奥特曼都被吓到了:xAI的算力已经超过OpenAI了,还给员工承诺了价值2亿期权,这是要上天?

马斯克的xAI一路狂飙突进,把Sam Altman都整怕了!

就在9月3日,马斯克在推上得意自曝:

团队仅仅用了122天时间,就建成了有10万张H100的Colossus集群,是世界上最强大的AI训练系统。

而且,未来几个月规模还要翻一倍,扩展到15万张H100+5万张H200。

最后,马斯克感谢了英伟达和许多其他合作伙伴、供应商。据悉,是戴尔开发、组装了Colossus系统。

马斯克的xAI,已经让几大AI巨头感受到了强烈的威胁。

根据内幕消息,Sam Altman就曾表示,自己是怕了马斯克了!

如今的xAI,不光算力有超越OpenAI之势,还对员工十分大方。有说法指出,对于xAI的研究者,马老板曾承诺过价值2亿美元的期权。

马斯克,全力进军超算

相信大家都已经发现:马斯克的超算野心,是愈发藏不住了!

隔三岔五的,就会有劲爆消息曝出。

7月底,xAI启动了位于孟菲斯的超级AI集群的训练,该集群由十万个液冷H100GPU组成。

十万个H100GPU消耗的电力大约在70兆瓦,因此这个超算至少会消耗150兆瓦的电力。

8月底,特斯拉宣布了Cortex AI集群,包括5万个英伟达H100GPU,和2万个特斯拉的Dojo AI晶圆级芯片。

如今看来,这些集群很可能都正式投入运行,甚至已经在训练AI模型了。

不过,马斯克真的有能力让它们全部在线吗?

首要问题是,要调试和优化这些集群的设置,需要一定时间。

其次,xAI还得确保它们获得足够的电力。

我们知道,虽然马斯克的公司一直在用14..立发电机为其供电,但要为十万块H100GPU供电,这些电力显然不够。

训练xAI的Grok2,需要两万块H100;而马斯克预测,要训练Grok3,可能会需要十万块H100。

所以,xAI的数据中心,建得怎么庞大都不过分。

建设速度太快,推测是「部分上线」

122天,也就是4个月的时间,建成10万张H100组成的超算集群,这是个什么速度?

有业内人士表示,通常完成这样一个集群可能需要一年时间。

这个速度,这个规模,很马斯克。

但也有人猜测,他可能有夸大其词的倾向,高估了在单一集群中实际运行的GPU数量。

囤足10万张芯片、放在一起共同运行,并不意味着就是单一集群。

论GPU数量,Meta在今年1月就已经计划采购35万张H100,但实际运行时是分成了不同集群。

之所以还没有其他公司能造出10万GPU规模的集群,很难说是因为缺钱,更重要的因素是网络解决方案。

串联起所有GPU的网络,需要保证足够的高带宽、低延迟和可靠性,才能让10万张芯片协同起来像一台计算机一样工作。

Colossus是二战期间第一台可编程计算机,也曾在科幻电影里登场

除了网络,还有电力问题。

马斯克此前表示,Colossus在6月底已经启动运行,当时,电力公司供应的最高功率只有几兆瓦,仅能供应数千个GPU同时运行。

电力公司表示,到8月,xAI将获得大约50兆瓦的电力,但这只能供应大约5万个芯片。

与此同时,现场即将建成的另一个发电站将提供另外150兆瓦,可以满足10万个或更多芯片的电力需求,但要到明年才能实现。

马斯克似乎找到了一个短期解决方案:引入化石能源发电机。

Colossus所在地,田纳西州孟菲斯的环保组织前几天刚刚写信控诉马斯克,指责他在没有许可的情况下安装了至少18台涡轮机(可能更多),加剧了当地的空气污染。

出于网络和电力两方面的限制因素,The Information指出,马斯克的这个集群可能只是「部分完成」

除了Colossus和微软在凤凰城为OpenAI建造的超算集群,多个类似的集群也正处在研发和建设过程中。

奥特曼:微软爸爸,我们的算力不够了

尽管如此,马斯克这个超大集群的进展,还是让一些竞争对手极度担心!

其中一位,就是OpenAI的CEO Sam Altman。

根据内部消息,奥特曼已经向一些微软高管透露了自己的担忧——

他十分担心,xAI很快就拥有比OpenAI更多的算力!

虽然为OpenAI提供算力的微软老大哥,资金实力非常雄厚,但作为上市公司,微软在花费资金时,还需要对公众股东负责。

但马斯克则完全没有这样的限制,尽管他的资金不如微软。

甭管马斯克有多少吹牛的成分,即使能部分完成Colossus集群的建成,也是一件令人印象深刻的事。

外媒The Information猜测,马斯克这种神奇的赶工速度,是否放弃了传统的例行安全检查?

毕竟,如果按例检查的话,可能会让数据中心项目的竣工延迟数月。

而且,The Information还发现了一个「华点」:Colossus位于以前的制造工厂内,这可不是适合高性能计算的理想场所。

微软和英伟达的高管透露,这是他们最不愿意放置昂贵硬件的地点之一。

因为这些地方很难改造,来适应服务器耗费的巨大电量,和数据中心设备需要的冷却技术。

咱们都知道,马老板一向喜欢突破边界,而在质疑声纷至沓来时,他又经常被证明是正确的。

最近在xAI的姊妹公司X,马斯克又有了一个惊人之举:关闭了一个数据中心。

当时大家都担心,X会因此而崩溃。结果谁也没想到,X运行得很好,马斯克居然有如此先见之明。

而这次,马斯克在田纳西州的超算,也同样可能会对AI开发者振聋发聩——

或许他们会发现,传统的做事方式如今已经过时了。

两家神秘AI巨头,正计划打造1250亿美元超算

如今,数据中心之战,竞争还在火热加剧!至少有六大巨头,已经下场了。

根据北达科他州官员的披露,除了微软、OpenAI和xAI,还有两家AI巨头也正在酝酿建造「巨型AI数据中心」。

这两家公司找到了商务专员Josh Teigen和州长Doug Burgum,商讨建立巨型AI数据中心。

除了技术研发,这类数据中心也对资源和基础设施提出了很高的要求。

不仅需要采购足够的芯片和相关设备,还要留出数万英亩的土地、建设新的发电设施。

马斯克的Colossus要自建发电站才能弄出200兆瓦,而这两家公司可能是因为直接找上了州长,他们的初始电力就能达到500~1000兆瓦,并计划在几年内扩增至5k~1w兆瓦。

这些项目的规模将比现有的任何数据中心,包括Colossus都扩大几个数量级。

100兆瓦可以为7万至10万个家庭供电;去年微软Azure的全球数据中心总共使用了大约5吉瓦(5k兆瓦)的电力。

这就意味着,一个数据中心,可能和整个Azure云服务..的耗电量相当。

根据会议的音频记录,这类规模的项目耗资可能超过1250亿美元。

在对外会议上,商务专员Teigen没有透露这两家神秘AI巨头的名字,但他表示市值达到了「一万亿美元」。

这就将潜在名单缩小到了美国的大约6家公司,七巨头之六——英伟达、亚马逊、微软、谷歌、Meta和苹果。

微软此前就和OpenAI讨论过建造价值1000亿美元的「星际之门」(Stargate),而且北达科他州长Doug Burgum曾是微软的高管,在2001年以11亿美元向微软出售过自己的一家软件公司。

但我们也知道,谷歌和亚马逊等其他公司也在积极提升其AI计算能力。

揭开美国AI超算的神秘面纱

AI巨头一向对尖端技术严格保密,但他们对开发数据中心所需的技术,保密程度有过之而无不及。

The Information列出了在美国7个州运营或计划中的17个超算数据中心,涉及微软、OpenAI、Meta和xAI等公司。

总的来说,仍在开发或计划阶段的设施建设成本可能超过500亿美元,其中包括约350亿美元的英伟达芯片,以及运营所需的额外数十亿美元。

这些超算估计在数年时间内落成,并需要大量的芯片、土地和电力。

在ChatGPT问世前,GPU集群通常只包含几千个芯片。如今,一些最大的GPU集群拥有超过3万个芯片,上面提到的这些超算更是达到了前所未有的规模。

要为所有计划中的数据中心供电,美国能源部预计会出现电力不足的情况,因此最近提出了一些解决方案,例如资助研究使AI计算更高效。

争夺「下一个高地」

现在,数据中心竞赛的焦点,集中到了英伟达CEO黄仁勋的身上。

就在上周,老黄发表了以下言论,宛如在业内投入一颗炸弹。

率先达到超算集群下一个高地的人,将实现革命性的AI水平。

此言一出,英伟达的GPU,谁敢不买?

即使已经和博通共同设计出了TPU的谷歌,最近也为英伟达即将推出的Blackwell下了大单。

对GPU的争夺,已经引发了AI开发者及其云供应商之间的紧张局势,甚至,有时还会引发它们和英伟达的摩擦。

比如,马斯克就曾考虑和甲骨文达成一项大规模协议,根据他的计划,xAI将在未来几年内,花费超过100亿美元租赁英伟达的GPU。

而这项谈判最终破裂了,部分原因在于,马斯克认为甲骨文无法足够快地建起超算,而甲骨文则担心,他会把GPU集群放在一个供电不足的地方。

芯片多多,问题多多

很多超大的GPU集群都位于土地辽阔、空间充裕且电力充足的地区。例如,马斯克的Colossus特意选址在田纳西州孟菲斯,亚马逊、Meta和微软都在亚利桑那州的凤凰城地区运营AI服务器。

但随着更大的GPU集群需要更多的电力,AI巨头们正计划在非传统数据中心枢纽的地区建造这些集群。

例如,亚马逊最近在宾夕法尼亚州中部的一座核电站旁边购置了土地,计划供应约一吉瓦(1000兆瓦)的电力。

这足以为整个旧金山供电,或者构建多达100万张GPU的集群。

另一个挑战是如何进行设备冷却。

传统上,数据中心一般采用风冷,但GPU服务器产生的热量远远超过传统服务器。

为了更佳的冷却效果,微软在威斯康星州为OpenAI建设的数据中心预计将使用液冷而非风冷。

虽然如今越来越多人怀疑,AI泡沫要接近临界点了,但兴建超算之风,一时半会还不会冷却。

毕竟,竞家都All In了,你能不上吗?

六巨头割据,群雄逐鹿,谁将夺得下一个超算高地?

参考资料:

https://www.theinformation.com/articles/why-musks-ai-rivals-are-alarmed-by-his-new-gpu-cluster?rc=epv9gi

https://www.tomshardware.com/tech-industry/artificial-intelligence/xai-colossus-supercomputer-with-100k-h100-gpus-comes-online-musk-lays-out-plans-to-double-gpu-count-to-200k-with-50k-h100-and-50k-h200

https://www.theinformation.com/articles/two-ai-developers-are-plotting-125-billion-supercomputers

https://www.theinformation.com/articles/introducing-the-ai-data-center-database?rc=epv9gi

标签:

最新文章

  1. 北体大新生拔河拔断绳子 网友:展现惊人力量2024-09-11
  2. 江西新余上空现巨型蘑菇云:持续约一个多小时 逐渐消散2024-09-11
  3. 阳澄湖大闸蟹中秋节大迟到:预计九月下旬开捕2024-09-11
  4. 华为三折叠Mate XT被炒9万起 线下用户排长龙等买:手机被罩着 想摸预约2024-09-11
  5. “支小宝”出世,AI生活服务听起来很美2024-09-11
  6. iPhone 16最佳伴侣!Apple Watch S10开启预购:2999元起2024-09-11
  7. A18芯片才是苹果的杀手锏,为AI手机而生的移动芯片?2024-09-11
  8. 猫卡车里保时捷车主果断拆车救猫 网友对车主善举表示赞赏2024-09-11
  9. iPhone 16/Pro系列搭载新一代超瓷晶面板:硬度较初代提升50%2024-09-11
  10. 有爱一幕!苹果店员工到华为店观看新品发布会 网友称三折叠比苹果16香2024-09-11
  11. 「这个男人能嫁吗」AI预测婚姻相亲适配度网站地址入口2024-09-11
  12. 你的拖延症给丰巢贡献了超8亿营收:家门口的丰巢要上市了2024-09-11
  13. 小米米家体脂秤S400 Pro开启众筹:179元 自带3.5英寸彩屏2024-09-11
  14. 小猫卡车里保时捷车主果断拆车救猫 网友:怪不得能开保时捷2024-09-11
  15. AI毕业论文系统:引爆开学季!(开源+无限SaaS多开)2024-09-11
  16. 有渠道商称38万卖出华为新手机:声称提供直飞送货服务2024-09-11
  17. 三证已齐全!vivo新一代顶级旗舰X200蓄势待发:将搭载最新蓝科技2024-09-11
  18. 滴滴:今年上半年垫付1.29亿元给司机 均为乘客未支付车费2024-09-11
  19. 一加13是安卓性能王者!李杰:能跟苹果A18 Pro掰手腕2024-09-11
  20. 苹果下架停售Lightning接口AirPods Pro 2:仅保留USB-C款 售价1899元2024-09-11
  21. 必须展开使用!华为Mate XT非凡大师天通卫星通信仅在三屏态支持2024-09-11
  22. 马斯克嘲讽iPhone16无新意:研发费用500亿美元 变化却微小2024-09-11
  23. 索尼PS5Pro正式公布:美版定价699美元 支持PSSR超分辨率技术2024-09-11
  24. 19999元起售!华为Mate XT非凡大师三折叠屏幕刷新率90Hz2024-09-11
  25. iPhone16跑分出炉:A18芯片单核性能优势明显2024-09-11
  26. 抖音医疗新规11月1日生效:严打借同质化等虚假内容导流获利2024-09-11
  27. 工具起家、探索合成,又一家北京厂商的Merge3有望月流水过千万?2024-09-11
  28. 当五毛钱的乌龟,成为“超级主播”2024-09-11
  29. 大厂硬件梦:字节、腾讯“向首”,华为、小米“向手”2024-09-11
  30. 200美元的ChatGPT Pro正式上线,聪明N倍的新模型草莓要来了。2024-09-11
沃晓伟
沃晓伟 微信号:沃晓伟 扫描二维码关注公众号
优质自媒体

小编推荐

  1. 1 【关注·学习】深刻把握进一步全面深化改革的主题——二论学习贯彻党的二十届三中全会精神

    新华社北京7月21日电 党的二十届三中全会强调,必需自发把改造摆在加倍凸起位置,紧紧环绕推进中国式现代化进一步周全深化改造。进修贯彻全会

  2. 2 参考文献类型(常用的参考文献类型)

    大家好,小豪今天来为大家解答参考文献类型以下问题,常用的参考文献类型很多人还不知道,现在让我们一起来看看吧!1、参考文献通常包括以下

  3. 3 360邮箱(360邮箱登陆入口)

    大家好,小乐今天来为大家解答360邮箱以下问题,360邮箱登陆入口很多人还不知道,现在让我们一起来看看吧!1、首先打开360安全浏览器。2、在36

  4. 4 乒乓球比赛的双打规则

    奥运会接近尾声,乒乓球整体赛事最后决赛光降,双打竞赛的划定相对复杂,‌这里简洁介绍一下其划定,以便更好的观战竞赛。从以下几个步

  5. 5 团队管理计划书怎么写(团队管理计划怎么写)

    大家好,小娟今天来为大家解答团队管理计划书怎么写以下问题,团队管理计划怎么写很多人还不知道,现在让我们一起来看看吧!1、问题一:团队

  6. 6 深圳奥特莱斯哪个最好知道(深圳奥特莱斯那家好)

    大家好,小丽今天来为大家解答深圳奥特莱斯哪个最好知道以下问题,深圳奥特莱斯那家好很多人还不知道,现在让我们一起来看看吧!1、深圳的奥

  7. 7 轩字五行属什么(萱字五行属什么)

    大家好,小娟今天来为大家解答轩字五行属什么以下问题,萱字五行属什么很多人还不知道,现在让我们一起来看看吧!1、轩五行:土。2、轩字五行

  8. 8 沸点医药(沸点医药视频1168网治多病)

    大家好,小伟今天来为大家解答沸点医药以下问题,沸点医药视频1168网治多病很多人还不知道,现在让我们一起来看看吧!1、当你浏览沸点分类网时

  9. 9 社会关注 | 今日处暑:袅袅秋风起,最美人间秋

    8月22日22点54分48秒将迎来处暑骨气。处暑秋色,最丽人间!瞻仰最高远的天,欣赏最澹泊的云,注视最柔情的水,聆听最美妙的雨……六合有大美而

  10. 10 剪力墙图片(剪力墙图片cad图示)

    大家好,小豪今天来为大家解答剪力墙图片以下问题,剪力墙图片cad图示很多人还不知道,现在让我们一起来看看吧!1、短肢剪力墙,指的是截面厚

Copyright 2024 优质自媒体,让大家了解更多图文资讯!