2024GMVPS案例巡展|中国电信研究院—分布式智算中心无损网络方案
2025-02-07
以下文章来源于微信公众号——全球计算联盟GCC
2024年度
全球计算产业应用案例汇编

2024 全球计算产业应用案例汇编征集活动精准锚定3大核心征集方向,深度覆盖产业生态关键构建要素–年度技术创新类、智慧行业应用类、可持续发展类,共收集到来自会员单位及产业伙伴累计近50份案例的积极申报。经由联盟理事会,以及来自通信、政务、制造业、分析机构、媒体等领域权威专家组成的编委会编审,现在,入选案例正式开启巡展,诚邀您一同见证全球计算产业的前沿成果与创新力量。
年度技术创新类(前沿技术突破)分布式智算中心无损网络方案
案例基本信息
案 例 名 称:分布式智算中心无损网络方案
牵头申报单位:中国电信股份有限公司研究院
联合申报单位:中国电信股份有限公司北京分公司、华为技术有限公司
案例简介
随着人工智能的浪潮来袭,以大模型为代表的智算中心解决方案逐步深入千行百业,算力需求日益攀升,智算基础设施的重要性进一步凸显,但同时也面临组网、通信、能耗、成本等多重挑战。为解决智算中心单点算力规模建设受限的问题,中国电信提出“以网强算”的技术路线,通过将IP技术与光传输技术的协同创新,将相距百公里的多个智算中心连成一个更大规模的智算集群,补齐单点算力规模不足的差距。针对跨智算中心构建超大规模智算集群过程中遇到的问题和挑战,中国电信成立攻关项目组,聚焦研究长距无损智算网络技术。
本方案依托中国电信的全光运力网,基于800G C+L技术、异构网络集合通信优化技术、全局负载均衡技术等,为1024卡规模的分布式集群提供大容量带宽,实现120公里千亿参数大模型分布式训练,性能达到集中训练的95%以上,证实了分布式无损智算网技术方向的可行性,为智算互联构建坚实技术底座。
案例亮点
- 本方案可实现跨百公里数据中心协同训练,为跨地域、跨层级、跨主体高可靠的算力协同调度奠定基础。
- 根据实时网络状况动态调整流控策略,实现流量峰值速率的流级别的独立控制和精准反压,实现网络无损传输。
- 提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率;采用WSON重路由恢复技术,快速地定位和解决问题,提高故障定位的准确率。
编委专家评语
该方案通过融合ROCE、800G、C+L、WSON、空芯光纤、精准流控等前沿技术,实现了百T大带宽、毫秒级时延的全光底座,优化了异构网络通信、负载均衡和高性能WSON技术。根据所提供的现网测试显示,该技术在多拓扑、多模型下均表现出高效稳定,能支持大规模智算任务。未来可推动端网算协同创新,促进京津冀战略协同,快速推进智算中心建设,为千行百业的数字化和智能化转型提供高效、稳定的算力服务,推动整个产业链的发展。
案例详细信息

扫码下载查看案例详情
本次巡展中的案例,仅是全球计算联盟推动计算产业创新发展的冰山一角。2024年GCC发起“2024年度全球计算产业应用案例汇编征集GMVPS”活动,旨在汇聚全球优秀计算产业案例,为行业树立标杆。征集方向涵盖年度技术创新、智慧行业应用、可持续发展三大类,全面覆盖产业生态关键要素。
欢迎持续关注本栏目!本次入选的30个前沿案例,不仅将为产业发展方向提供新思路、助力实现新突破,也引发对产业发展趋势与战略方向的深度思考。
若您对案例中的技术、应用模式感兴趣或存在疑问,欢迎通过邮箱icd@gccorg.com取得联系。2025年欢迎持续关注联盟GMVPS等系列活动!让我们携手在全球计算产业浪潮中,共同书写崭新篇章!