丁香成人在线网 对话百度:国内构建十万卡集群的三浩劫题
发布日期:2024-11-08 11:12 点击次数:124
丁香成人在线网
图片系 AI 生成
自 OpenAI 发布 ChatGPT 两年来,大模子产业发展的脚步似乎慢了。然则大洋此岸,xAI、Meta、OpenAI 等广博科技巨头齐在积极布局 10 万卡乃至更大限制的智算集群,冲刺 AGI,国内相同循着相似的秩序。然则,受限于芯片供应等原因,国内构建 10 万卡集群濒临着三浩劫题:跨地域部署、多芯混训以及集群踏实性,这些难题包括技能和工程上的多重挑战。
十万卡,AGI 的门槛
7 月 22 日,马斯克书记位于好意思国田纳西州孟菲斯市的孟菲斯超等集群驱动参加测验。该集群配备了 10 万个英伟达 H100 GPU,被称为 "宇宙上最强劲的 AI 测验集群"。两个月后,马斯克在 X 平台上书记该集群名为 " Colossus(巨东谈主)",将在异日几个月内再加多 10 万颗 GPU,其中 5 万颗将是更为先进的英伟达 H200。 Grok 3 大模子正在超算中心中进行测验,测验展望在三到四个月内完成,指标是在本年 12 月发布 Grok 3。
另一家科技巨头 Meta 也不示弱。Meta 首席推行官马克 · 扎克伯格在第三季度财报电话会议上泄露,Llama 4 模子正在一个由 10 万片 H100 GPU 构成的集群上进行测验,并展望在明岁首度推出。为了撑抓大模子,Meta 展望本年度老本支拨将高达 400 亿好意思元,比客岁加多了向上 42%。扎克伯格在财报电话会议中强调,来岁将进一步加大对 AI 基础法子的投资。
而大模子领头羊 OpenAI 与微软的"黄金搭档"却因为推测集群的委用程度产生了不合。此前微软与 OpenAI 协作共建一个代号为 "星际之门" 的巨型数据中心形状。这个形状展望成本向上 1150 亿好意思元,旨在容纳一台面向 AI 的配备数百万块 GPU 的超等推测机。
据报谈,微软筹谋到来岁年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。然则面对紧追不舍的敌手丁香成人在线网,阿尔特曼似乎对微软的速率不烦躁。完成 66 亿好意思元融资后,OpenAI 驱动寻求愈加颓唐的数据中心和云劳动相貌并与甲骨文达成了条约,将在德克萨斯州的一个新数据中心租用劳动器。该数据中心被誉为宇宙上最大的数据中心之一,异日可能容纳数十万个英伟达 AI 芯片。
百度卓绝系统架构师、百度智能云 AI 推测部崇拜东谈主王雁鹏示意,从好意思国科技企业跋扈布局 10 万卡不错看出,Scaling Law 定律当今看仍然灵验。公开数据夸耀,GPT-3 的测验数据集包含 3000 亿个 token,而 GPT-4 的测验数据集包含约 13 万亿个 token。模子的抓续升级,意味着数据量的指数级增长,而测验数据量的升级对推测集群也提倡了挑战,10 万卡的测验集群恰是为了满足模子参数增长所带来的高算力需求。
10 万卡集群难在哪?
10 万卡虽好,但部署如斯大限制的算力集群会濒临很大挑战。王雁鹏先容,历程多年的技能辘集和产业实践,百度的百舸 4.0 已好像竣事 10 万卡集群的高效管制,并通过 HPN 高性能收集、自动化混训切分战略、自研鸠合通讯库等一系列居品技能革命,一定程度上措置了上述难题。
踩脚袜 足交举例,好意思国老旧的电网就无法跟上大模子的范例。由于集群耗电量广博,好意思国的众大批据中心齐遇到了电网崩溃。一位微软工程师曾示意,为 GPT-6 搭建 10 万个 H100 测验集群时,悉数这个词电网发生了崩溃。据估算,一个 10 万卡集群每天的耗电量达到 300 万度,很是于北京市东城区一天的住户用电量。此外,10 万卡集群需要大要 10 万泛泛米,很是于 14 个标准足球场的面积,要是念念在单一成立中部署这样大的集群,将濒临选址袭击和端正甘休等挑战。
出于上述原因,好意思国科技公司的超大集群大多遴荐跨地域部署。为了冲突单一数据中心的限制甘休,谷歌和微软已入部下手将大限制模子测验扩张至多个数据中心园区。其中,谷歌的 Gemini 1 Ultra 模子已当先竣事大批据中心测验。微软筹谋将其在凤凰城的 AI 测验基地扩张至 10 座成立,自建 24 个数据中心,在多个超大限制园区互联,实施遮掩全好意思的大限制散播式测验。
王雁鹏先容,由于电网配电甘休、占地空间大等原因,十万卡集群需要跨楼、跨园区,以至跨城部署。而这种跨地域部署例必会加多收集通讯的复杂性。跨地域通讯需要措置长距离通讯延伸、拥塞限度等技能问题。
国内企业构建 10 万卡集群还濒临着一个执行的袭击:芯片。国内企业濒临算力供应不踏实的挑战,较难构建单一大限制测验集群。执行情况是,企业里面会出现团结厂商不同代际芯片,或者不同厂商芯片共存的情况。这些芯片若何进行混部测验,同期保证混部测验的后果亦然难题。
此外,跟着芯片集成度的束缚提高,芯片的故障率也会相应飞腾,英伟达 H 系列芯片的故障率比 A 系列高 3-4 倍。况兼算力集群限制越大,其故障率就越高。按照 H 系列芯片的故障率水平,十万卡集群每 20 分钟就会出现故障。较高的故障率对踏实性测验保险提倡了更高的条目。
王雁鹏先容,包括百度在内的国内厂商正在破解这些难题。在跨地域方面,针对由于传输距离变长所产生的高延伸,百舸 4.0 也曾构建了十万卡级别的超大限制 HPN 高性能收集,通过提供更高效的拓扑结构、更优的多旅途负载平衡战略及通讯战略,好像竣事几十公里的跨地域通讯。同期,在通讯后果上,通过优化的拥塞限度算法、鸠合通讯算法战略,将带宽有后果提高至 95%,竣事了完满无窒碍。终末,通过 10ms 级别超高精度收集监控,保险了收集踏实性。
在多芯混训方面,百舸好像将不同处所、不同限制的异构算力进行长入管制,构建起多芯资源池。当业务提交职责负载时,可自动进行芯片选型,依据集群剩余的芯片资源,遴荐性价比最高的芯片来运行任务,从而最大化地哄骗集群的剩余资源。最终,可竣事高达 95% 的万卡多芯搀杂测验效力。
在集群踏实性方面,百舸提供全面的故障会诊技能,不错快速自动侦测到导致测验任务很是的节点故障。同期,百度自研的 BCCL(百度鸠合通讯库),好像快速定位故障同期提供自动化的容错才能,重新疗养任务到健康节点,不息完成测验,当今也曾将故障规复时候从小时级裁汰到分钟级。
王雁鹏示意,公有云是企业进行大模子测验的主流相貌。在 10 万卡集群出现之前,为满足企业大模子的测验需求,云厂商频频采用劳动一个企业,搭建一个集群的相貌。然则,这种相貌存在显著间隙,即每个集群齐是为特定企业劳动,在企业的测验任务不处于岑岭期时,集群中的推测资源可能会处于闲置情景,变成资源的忽地。而当 10 万卡集群出现后,云厂商就不错依靠这个大型集群为广博企业提供劳动,字据不同企业的需求动态分派推测资源,这样不仅提高了资源哄骗率,也裁汰了企业使用云劳动的成本,增强了云厂商在市集中的竞争上风。
(本文首发于钛媒体 APP丁香成人在线网,作家 | 张帅,剪辑 | 盖虹达)