2026 Open AI Infra Summit特辑｜龙盘：兆瓦级算力系统技术探索与规划

2026-04-29

以下文章来源于微信公众号——全球计算联盟GCC

欢迎阅览 GCC CompuWave 之「大咖观点」版块

2026 Open AI Infra Summit 上，

Open AI Infra 社区管理委员会联席主席

华为计算产品线研发副总裁龙盘

发表了主题为《兆瓦级算力系统技术探索与规划》的演讲以下内容根据龙盘演讲整理，略有删减

【全文摘要】

依托Open创新理念，AI产业从十年前萌芽逐步迈入通用技术阶段，历经 AlphaGo、GPT 系列、DeepSeek等关键节点的迭代，即将迎来Agent AI生产力时代。演讲围绕AI发展历程，明确支撑智能体具备生产力的四大核心特征，深入剖析兆瓦级算力系统给AIDC带来的挑战与商业机遇，强调高效供电、闭环液冷、高密光互连作为基础设施底座的核心价值，彰显Open生态共建与Infra持续探索对AI产业发展的关键意义。

Open创新理念，AI日新月异，Infra持续探索

人工智能真正意义上成为一种通用技术，大约在十年前开始萌芽。

2016 年 3 月有一条新闻：英国一家名为 DeepMind 的小公司开发了一个软件叫 AlphaGo，它第一次在围棋比赛中，战胜了当时的世界冠军，韩国棋手李世石。经历过这件事的人，应该还记得当时的震撼。

以此为起点，我们进行了一系列战略研讨，结论是AI将成为一种通用的计算技术。应该说，这一判断具有一定的前瞻性。

此后，AI大模型技术持续迭代，也尝试了不同的技术路径。真正的黎明破晓时刻出现在 2022 年的最后一个星期：GPT-3正式上线，让人们意识到AI居然可以理解人类的意图。2023 年 3 月 15 日，GPT-4发布，它能够非常流畅地与人类用自然语言交流，还能完成一些当时看来颇为炫酷的任务。这让人理解到，AI 确实能够做事，可以成为一种通用的计算技术。

通过对 GPT-3 和 GPT-4 技术路线的解析，我们提前识别出 Scaling Law 的意义——Scaling Law 意味着必须拥有超大的集群算力和超大的内存容量。这触发了启动设计灵衢互联协议。

随后，在2025年的春天，DeepSeek 时刻到来。DeepSeek 引入了稀疏技术，一方面使系统架构变得非常复杂——因为要做万亿参数规模的 MOE 并行，系统技术极其复杂；另一方面，它带来的好处几乎是百倍级别的，大幅降低了推理成本，使推理从一项实验室技术走进了千行百业。这就是 DeepSeek 时刻的价值。

从现在的时间点，进一步展望，已经可以看到一些萌芽：真正的 Agent AI 时代，在不久的将来就会到来。也许是三个月、六个月，如果超过一年，会让人感到非常奇怪和惊讶——应该会在未来一年之内，真正的 Agent 时刻就会到来。

这意味着什么？以计算机辅助编程这样一个规则高度确定的细分行业为例，AI可以在很多工作上做得比人类更好，比99%的人类都更好，例如找 Bug、检视代码或做测试等。这意味着AI生产力时代即将到来，这是乐见其成的举世瞩目的关键时刻。

支撑智能体具备生产力的四大要素

支持生产力的智能体，它应该具备什么样的特征？这些特征应该用什么样的技术来实现？我认为它应该具备四大要素特征。

第一个特征，可以借用“学富五车”来形容。

在技术上，这意味着一个大模型在做预训练时，需要灌入万亿级的语料——至少一万亿当量的Token化语料，并产出万亿级的参数。例如，去年的 DeepSeek R1 和 V3 已经做到了6700亿参数。目前正在密集研发、处于临门一脚阶段的新一代 DeepSeek，其参数规模已经超过一万亿，语料规模早已超过一万亿，现在达到了十万亿的规模。

这就给计算系统带来了巨大挑战。企业至少需要搭建一个万卡甚至十万卡级别的大集群，才有机会在大约一个月左右——最长不超过三个月——的商业价值时间窗内，把大模型训练出来。如果训练时长达到一年，那么很多语料就过时了，没有意义。从商业角度看，通常认为每月更新一次语料比较合理。十万卡集群作为这样一个“大丹炉”，需要具备天文数字的算力，以及连接算力的海量带宽。

另外，从传统并行计算的角度看，预训练大集群是一个全机系统。这意味着它的所有计算单位必须全部健康，才能保证计算活动持续进行。如此复杂的系统中有大量硬件器件，包括内存、光模块、电源等，各种故障都需要得到有效管理。结合系统可靠性设计技术，才有机会做到全机运行 98%甚至更高的可用度。这对于预训练大集群的投资方来说至关重要。例如，一个预训练大集群的投资门槛大概是 100 亿元可能只是门槛，如果可用度降低一个百分点，就意味着一个亿的损失。而很多时候，预训练大集群的可用度，尤其是采用国产设备构建的集群，其可用度可能还停留在 92%、93%的水平，挑战仍然很大。

因此，第一个特征总结而言：智能体必须拥有巨量的参数和巨量的语料，并且能够在一个月内完成预训练、拿出大模型，这样的智能体才具有商业价值。

第二个特征，可以称之为“思维敏捷”。

光有“学富五车”，但“嘴巴不利索”也不行。传统上说的“茶壶形态”的智能体，肚子里货很多，却讲不出来，这肯定不合适。从抖音这样的商业实体来看，预训练是烧钱的，只有推理吐出 Token 才能赚钱。目前国内大模型的日消耗量已经达到 180 万亿 Token，其中抖音一家的日消耗量就超过 60 万亿 Token，而且这个数量还在以大约每三个月增长 50%甚至翻番的比率快速增长。

因此，企业有必要构建足够敏捷、足够高效的推理基础设施，来适配如此大规模的 Token 输出。具体参数都很清楚：从个人用户体验角度，首 Token 时延和每秒 Token 数非常敏感；从经营角度，每瓦 Token 数、单位 TCO 的 Token 数等指标也很敏感。

应该采用什么样的技术，大家也很清楚。

正如前面所提及的，MOE稀疏大模型是未来确定性的主干技术，仅这一项技术就可以带来一个数量级的Token产出增量。这也意味着需要实现大 EP 并行架构，这对整个互联复杂度的要求是指数级提高的，包括互联带宽的数量和互联时延的要求都变得非常敏感。初步的实践表明，在同样带宽下，用以太网也可以拼出非常大的带宽，毕竟以太网现在已经发展到 800G、1.6T的带宽。但由于 RoCE 以太网时延较大，与采用 Scale-up 协议组的超节点推理系统相比，同等时延下的吞吐量会有倍数级的差距。所以在“思维敏捷”这个特征上，总线的作用非常大。这也很好理解：思维敏捷，神经中枢必须非常健壮。

要做到“思维敏捷”，除了在互联的语义层、会话层、事务层做大量协议创新之外，在基础器件上也可以做很多工作。例如当前热门的线性直驱光技术（Linear Pluggable Optics，LPO）。

整体而言，在第二个特征中讲述了对总线的需求，其主要贡献体现在“思维敏捷”上。

第三个特征，可以称之为“过目不忘”。

可以把智能体理解为一个记忆系统，记忆是产生智能的必要要素。传言金鱼只有七秒钟的记忆，那它就没有智能——再好看、再好玩也没有智能。

在提升系统的“记忆”能力方面，业界也已经进行了大量的尝试。从技术落地的角度来说，将按照如下步骤进行：第一步，准备把目前相对成熟的 NAND 控制器技术，经过优化后直接整合到超节点内；第二步，希望学术界能帮助在 NAND 基础颗粒阵列上做一些改变，使其时延更低、吞吐带宽获得指数级提升，同时能够用原生内存的语义融入超节点，让整个记忆系统获得更好的技术能力。

第四个特征，可称之为“品行端正”。

这个特征就更为直观，意味着做很多事情都要循规蹈矩。这在业界还处于探索阶段，首先，在技术实现原理上还存在一些争议，其次实现的代价非常大。把它作为第四个特征，并不代表它不重要。实际上，如果没有办法解决品行端正的问题，智能体是无法进入生产力系统的。

一个很聪明的员工，如果做事时总触犯各种法规法律，就无法让他工作。目前看到的技术还处于萌芽阶段，包括运行中的对齐、传统的敏感词过滤、多思维链的动态对比等。这意味着计算系统不仅要进行大模型的计算，还需要多样性的算力，包括 CPU 以及一些专门的处理器（如向量处理器）共同参与，进行多维度的算力配合，最后才能输出一个真正具有生产力的智能体——现在称之为 Agent AI。

综合以上内容，未来 AIDC 的特征应该是兆瓦级的算力系统、吉瓦级的数据中心。而且，供电、供热和光互连全部需要同构设计。从专业的角度来看，这既是挑战，更意味着机会。

兆瓦级算力系统给AIDC带来的挑战与机会

兆瓦级算力系统的三个重点部分是高效供电、闭环液冷、高密光互连，它们是整个算力系统的底座。

这个底座有一个特征值得关注：它与协议无关，与算力系统的技术路线也无关。也就是说，无论是昇腾还是沐曦、燧原等，最终都需要高效供电、闭环液冷和高密光互连。这是基础设施的基础设施。所以Open AI Infra社区选准这三个方向作为基础技术的构建，切入点非常好，也可以为后续的发展提供更大的空间。

我们可以将相关的内容进行一下量化，供大家参考。一般而言，在高效供电方面，每瓦对应 5-8 元人民币的 CAPEX 投资；在闭环液冷方面，当前的液冷至少做到每瓦 5 元人民币，如果增加闭环能力，价值会更大，应该能提升到每瓦 5-8 元人民币的投资。这两部分加起来就超过每瓦 10 元人民币的投资。如果换算到吉瓦级的数据中心，这就是 100 亿当量的投资规模。之前展示的Open AI Infra社区的路标中非常清楚，在规范指导下认证的数据中心，预计 2027 年达到两吉瓦，这意味着认证范围内的供电和散热投资就已经达到 100 亿甚至 200 亿元人民币的量级。

高密光互连的价值更高，其原因在于：算力系统互联带宽的需求是以 HBM 的带宽为锚点。在此锚点下，Scale-UP大约需要 HBM 带宽的 10%到 20%，Scale-Out 需要1%到2%的带宽。我们做过大量测试，如果 Scale-UP 带宽低于 HBM 带宽的10%，整个算力系统的性能会大打折扣；要一直增加到 20%或以上，才能达到饱和状态。鉴于整个算力系统的投资在数百亿级别，打一个点的折扣，就意味着数亿元的成本被浪费。

在光互连上多花的钱，如果可以换来全系统 3%、5%甚至 10%的性能提升，那么就能够产生几十亿、上百亿的等效价值。

整体而言，光互连在算力总投资中的比重越来越大，保守估计也已经达到 5%到 8%的量级，而且这个比例不含交换芯片，那些需要另外计算。以国内互联网每年大约两千多亿人民币的基础设施投资而言，即使按照最保守的 5%占比，光互连也是一个非常巨大的数字，而且这个数字是每年都存在，随着算力部署而持续产生。这就是高密度互连市场的机会。