中国电信完成国内首个商用智算超节点系统优化验证

2025-07-20

以下文章来源于微信公众号——全球计算联盟GCC

当前，大模型发展重心正从“训练”转向“推理”，基于超节点形态的云上推理成为趋势，超节点推理性能成为产业界核心关注点。近期，中国电信研究院联合广东公司、华为公司基于昇腾384超节点系统，依托研究院自研“翼芯”智算测试与适配优化平台，开展了面向不同场景的大模型推理性能测试与调优。经系统优化，各场景推理性能均大幅提升，其中DeepSeek 671B满血版模型在超节点部署，单卡推理吞吐性能2122 Tokens/s，创下国内新纪录。

超节点是采用高速互连技术将多台服务器内的AI芯片紧密耦合形成的大型算力单元，需要对不同业务场景的资源配置和并发策略灵活设置才能最大发挥系统性能。

本次优化完成了“翼芯”平台和昇腾超节点的对接，针对13项基准性能、6类典型场景、以及5类典型资源配置，开展了推理性能自动化测试与系统级调优。“翼芯”平台按照业务模型，分别配置超节点Prefill池和Decode池的资源数量、推理实例数量和并行策略，通过测试快速反馈性能指标并进行实时策略调整，同时配合算子融合替换、KV Cache优化、集合通信优化、服务调度优化等手段，不断优化P池和D池吞吐性能使其达到最大平衡。

结果表明，面向DeepSeek 671B满血版模型的超节点优化方案，多种场景下单卡吞吐性能较优化前有2.5至4.3倍提升，其中272卡配置（128卡P池、144卡D池）是系统性能最大平衡点，在TTFT为1.28s、TPOT为50ms的服务质量保证下，系统单卡吞吐达到2122 Tokens/s，较前期业界最佳优化性能提升9.2%。该技术验证充分彰显了中国电信在超节点上的系统优化能力——能根据客户业务需求灵活配置云上节点资源，提供高性价比推理算力，有效服务于复杂推理、多智能体协同等新场景。

未来，中国电信将开展更广泛场景、更多类型的超节点形态技术研究和优化验证，不断推动国产智算基础设施技术创新。