2026 Open AI Infra Summit特辑|龙盘:兆瓦级算力系统技术探索与规划

2026 Open AI Infra Summit特辑|龙盘:兆瓦级算力系统技术探索与规划

2026-04-29

以下文章来源于微信公众号——全球计算联盟GCC

欢迎阅览 GCC CompuWave 之「大咖观点」版块

2026 Open AI Infra Summit 上,

Open AI Infra 社区管理委员会联席主席

华为计算产品线研发副总裁龙盘

发表了主题为《兆瓦级算力系统技术探索与规划》的演讲以下内容根据龙盘演讲整理,略有删减

【全文摘要】

依托Open创新理念,AI产业从十年前萌芽逐步迈入通用技术阶段,历经 AlphaGo、GPT 系列、DeepSeek等关键节点的迭代,即将迎来Agent AI生产力时代。演讲围绕AI发展历程,明确支撑智能体具备生产力的四大核心特征,深入剖析兆瓦级算力系统给AIDC带来的挑战与商业机遇,强调高效供电、闭环液冷、高密光互连作为基础设施底座的核心价值,彰显Open生态共建与Infra持续探索对AI产业发展的关键意义。

Open创新理念,AI日新月异,Infra持续探索

人工智能真正意义上成为一种通用技术,大约在十年前开始萌芽。

2016 年 3 月有一条新闻:英国一家名为 DeepMind 的小公司开发了一个软件叫 AlphaGo,它第一次在围棋比赛中,战胜了当时的世界冠军,韩国棋手李世石。经历过这件事的人,应该还记得当时的震撼。

以此为起点,我们进行了一系列战略研讨,结论是AI将成为一种通用的计算技术。应该说,这一判断具有一定的前瞻性。

此后,AI大模型技术持续迭代,也尝试了不同的技术路径。真正的黎明破晓时刻出现在 2022 年的最后一个星期:GPT-3正式上线,让人们意识到AI居然可以理解人类的意图。2023 年 3 月 15 日,GPT-4发布,它能够非常流畅地与人类用自然语言交流,还能完成一些当时看来颇为炫酷的任务。这让人理解到,AI 确实能够做事,可以成为一种通用的计算技术。

通过对 GPT-3 和 GPT-4 技术路线的解析,我们提前识别出 Scaling Law 的意义——Scaling Law 意味着必须拥有超大的集群算力和超大的内存容量。这触发了启动设计灵衢互联协议。

随后,在2025年的春天,DeepSeek 时刻到来。DeepSeek 引入了稀疏技术,一方面使系统架构变得非常复杂——因为要做万亿参数规模的 MOE 并行,系统技术极其复杂;另一方面,它带来的好处几乎是百倍级别的,大幅降低了推理成本,使推理从一项实验室技术走进了千行百业。这就是 DeepSeek 时刻的价值。

从现在的时间点,进一步展望,已经可以看到一些萌芽:真正的 Agent AI 时代,在不久的将来就会到来。也许是三个月、六个月,如果超过一年,会让人感到非常奇怪和惊讶——应该会在未来一年之内,真正的 Agent 时刻就会到来。

这意味着什么?以计算机辅助编程这样一个规则高度确定的细分行业为例,AI可以在很多工作上做得比人类更好,比99%的人类都更好,例如找 Bug、检视代码或做测试等。这意味着AI生产力时代即将到来,这是乐见其成的举世瞩目的关键时刻。

支撑智能体具备生产力的四大要素

支持生产力的智能体,它应该具备什么样的特征?这些特征应该用什么样的技术来实现?我认为它应该具备四大要素特征。

第一个特征,可以借用“学富五车”来形容

在技术上,这意味着一个大模型在做预训练时,需要灌入万亿级的语料——至少一万亿当量的Token化语料,并产出万亿级的参数。例如,去年的 DeepSeek R1 和 V3 已经做到了6700亿参数。目前正在密集研发、处于临门一脚阶段的新一代 DeepSeek,其参数规模已经超过一万亿,语料规模早已超过一万亿,现在达到了十万亿的规模。

这就给计算系统带来了巨大挑战。企业至少需要搭建一个万卡甚至十万卡级别的大集群,才有机会在大约一个月左右——最长不超过三个月——的商业价值时间窗内,把大模型训练出来。如果训练时长达到一年,那么很多语料就过时了,没有意义。从商业角度看,通常认为每月更新一次语料比较合理。十万卡集群作为这样一个“大丹炉”,需要具备天文数字的算力,以及连接算力的海量带宽。

另外,从传统并行计算的角度看,预训练大集群是一个全机系统。这意味着它的所有计算单位必须全部健康,才能保证计算活动持续进行。如此复杂的系统中有大量硬件器件,包括内存、光模块、电源等,各种故障都需要得到有效管理。结合系统可靠性设计技术,才有机会做到全机运行 98%甚至更高的可用度。这对于预训练大集群的投资方来说至关重要。例如,一个预训练大集群的投资门槛大概是 100 亿元可能只是门槛,如果可用度降低一个百分点,就意味着一个亿的损失。而很多时候,预训练大集群的可用度,尤其是采用国产设备构建的集群,其可用度可能还停留在 92%、93%的水平,挑战仍然很大。

因此,第一个特征总结而言:智能体必须拥有巨量的参数和巨量的语料,并且能够在一个月内完成预训练、拿出大模型,这样的智能体才具有商业价值

第二个特征,可以称之为“思维敏捷”

光有“学富五车”,但“嘴巴不利索”也不行。传统上说的“茶壶形态”的智能体,肚子里货很多,却讲不出来,这肯定不合适。从抖音这样的商业实体来看,预训练是烧钱的,只有推理吐出 Token 才能赚钱。目前国内大模型的日消耗量已经达到 180 万亿 Token,其中抖音一家的日消耗量就超过 60 万亿 Token,而且这个数量还在以大约每三个月增长 50%甚至翻番的比率快速增长。

因此,企业有必要构建足够敏捷、足够高效的推理基础设施,来适配如此大规模的 Token 输出。具体参数都很清楚:从个人用户体验角度,首 Token 时延和每秒 Token 数非常敏感;从经营角度,每瓦 Token 数、单位 TCO 的 Token 数等指标也很敏感。

应该采用什么样的技术,大家也很清楚。

正如前面所提及的,MOE稀疏大模型是未来确定性的主干技术,仅这一项技术就可以带来一个数量级的Token产出增量。这也意味着需要实现大 EP 并行架构,这对整个互联复杂度的要求是指数级提高的,包括互联带宽的数量和互联时延的要求都变得非常敏感。初步的实践表明,在同样带宽下,用以太网也可以拼出非常大的带宽,毕竟以太网现在已经发展到 800G、1.6T的带宽。但由于 RoCE 以太网时延较大,与采用 Scale-up 协议组的超节点推理系统相比,同等时延下的吞吐量会有倍数级的差距。所以在“思维敏捷”这个特征上,总线的作用非常大。这也很好理解:思维敏捷,神经中枢必须非常健壮。

要做到“思维敏捷”,除了在互联的语义层、会话层、事务层做大量协议创新之外,在基础器件上也可以做很多工作。例如当前热门的线性直驱光技术(Linear Pluggable Optics,LPO)。

整体而言,在第二个特征中讲述了对总线的需求,其主要贡献体现在“思维敏捷”上。

第三个特征,可以称之为“过目不忘”

可以把智能体理解为一个记忆系统,记忆是产生智能的必要要素。传言金鱼只有七秒钟的记忆,那它就没有智能——再好看、再好玩也没有智能。

在提升系统的“记忆”能力方面,业界也已经进行了大量的尝试。从技术落地的角度来说,将按照如下步骤进行:第一步,准备把目前相对成熟的 NAND 控制器技术,经过优化后直接整合到超节点内;第二步,希望学术界能帮助在 NAND 基础颗粒阵列上做一些改变,使其时延更低、吞吐带宽获得指数级提升,同时能够用原生内存的语义融入超节点,让整个记忆系统获得更好的技术能力。

第四个特征,可称之为“品行端正”

这个特征就更为直观,意味着做很多事情都要循规蹈矩。这在业界还处于探索阶段,首先,在技术实现原理上还存在一些争议,其次实现的代价非常大。把它作为第四个特征,并不代表它不重要。实际上,如果没有办法解决品行端正的问题,智能体是无法进入生产力系统的。

一个很聪明的员工,如果做事时总触犯各种法规法律,就无法让他工作。目前看到的技术还处于萌芽阶段,包括运行中的对齐、传统的敏感词过滤、多思维链的动态对比等。这意味着计算系统不仅要进行大模型的计算,还需要多样性的算力,包括 CPU 以及一些专门的处理器(如向量处理器)共同参与,进行多维度的算力配合,最后才能输出一个真正具有生产力的智能体——现在称之为 Agent AI。

综合以上内容,未来 AIDC 的特征应该是兆瓦级的算力系统、吉瓦级的数据中心。而且,供电、供热和光互连全部需要同构设计。从专业的角度来看,这既是挑战,更意味着机会。

兆瓦级算力系统给AIDC带来的挑战与机会

兆瓦级算力系统的三个重点部分是高效供电、闭环液冷、高密光互连,它们是整个算力系统的底座。

这个底座有一个特征值得关注:它与协议无关,与算力系统的技术路线也无关。也就是说,无论是昇腾还是沐曦、燧原等,最终都需要高效供电、闭环液冷和高密光互连。这是基础设施的基础设施。所以Open AI Infra社区选准这三个方向作为基础技术的构建,切入点非常好,也可以为后续的发展提供更大的空间。

我们可以将相关的内容进行一下量化,供大家参考。一般而言,在高效供电方面,每瓦对应 5-8 元人民币的 CAPEX 投资;在闭环液冷方面,当前的液冷至少做到每瓦 5 元人民币,如果增加闭环能力,价值会更大,应该能提升到每瓦 5-8 元人民币的投资。这两部分加起来就超过每瓦 10 元人民币的投资。如果换算到吉瓦级的数据中心,这就是 100 亿当量的投资规模。之前展示的Open AI Infra社区的路标中非常清楚,在规范指导下认证的数据中心,预计 2027 年达到两吉瓦,这意味着认证范围内的供电和散热投资就已经达到 100 亿甚至 200 亿元人民币的量级。

高密光互连的价值更高,其原因在于:算力系统互联带宽的需求是以 HBM 的带宽为锚点。在此锚点下,Scale-UP大约需要 HBM 带宽的 10%到 20%,Scale-Out 需要1%到2%的带宽。我们做过大量测试,如果 Scale-UP 带宽低于 HBM 带宽的10%,整个算力系统的性能会大打折扣;要一直增加到 20%或以上,才能达到饱和状态。鉴于整个算力系统的投资在数百亿级别,打一个点的折扣,就意味着数亿元的成本被浪费。

在光互连上多花的钱,如果可以换来全系统 3%、5%甚至 10%的性能提升,那么就能够产生几十亿、上百亿的等效价值。

整体而言,光互连在算力总投资中的比重越来越大,保守估计也已经达到 5%到 8%的量级,而且这个比例不含交换芯片,那些需要另外计算。以国内互联网每年大约两千多亿人民币的基础设施投资而言,即使按照最保守的 5%占比,光互连也是一个非常巨大的数字,而且这个数字是每年都存在,随着算力部署而持续产生。这就是高密度互连市场的机会。