端侧AI时代，如何铸造软硬协同“芯”底座？

2025-04-13

以下文章来源于微信公众号——全球计算联盟GCC

2025年，随着DeepSeek、机器人、AI Agent、GPT-4o多模态生成等AI应用的接连破圈，“深度思考”、“智能体”、“多模态”等AI概念迅速从专业领域进入大众视野，这不仅催生了全新的大模型软硬件生态，加速各类AI应用形态和终端硬件产品迭代升级，更通过爆发式增长的用户体验，让消费者切实感受到了AI的独特创新价值。行业巨头纷纷加码投入，为模型训练、推理计算、应用开发等核心环节筑牢底层技术支撑。

在云侧AI场景如火如荼发展的同时，端侧创新也在奋进提速。包括芯片厂商、操作系统开发商、手机及PC等消费电子企业在内的产业链上下游玩家，共同探索算力提升、成本优化、应用场景拓展等关键要素的平衡之道。

端侧设备

AI技术普惠的重要载体

随着智能终端设备的不断普及与算力升级，端侧AI已从技术概念转化为实际生产力。PC、手机、机器人、XR设备、智能座舱等消费级终端凭借高渗透率与实时交互特性，成为了AI端侧落地的重要载体。在芯片性能提升和模型优化技术的双重驱动下，当前端侧设备已具备高效部署AI模型的能力，加速了AI应用从云端向终端的迁移。在技术实现路径上，以下几个关键方向值得重点关注：

在SLM轻量化模型方面，相较于云端百亿级参数大语言模型（LLM），1.5B至7B参数规模的小语言模型（SLM）凭借优异的计算效率和更低的内存占用，逐渐成为端侧AI的主流选择。以DeepSeek-R1蒸馏版为例，该模型在保持高性能的同时，有效降低计算资源需求，进一步拓宽了端侧AI的应用边界。

在多模态计算领域，随着LLM和SLM技术的持续迭代，搭载摄像头、麦克风等多模态传感器的各类主流消费电子在AI技术的加持下，正加速推动图像识别和语音交互技术升级，这不仅实现了隐私数据的本地化安全处理，同时为机器人等新兴应用场景注入了强劲的增长潜能，使其能够实时处理海量音视频数据，进而显著提升环境感知和交互等关键能力。

在Copilot智能生产力工具方面，生成式AI已广泛应用于编程辅助、智能办公、图像处理、音视频编辑等诸多生产力场景。这类应用对低延迟和隐私保护的特殊要求，使其天然适配端侧计算架构，同步带动终端算力需求的高速增长。

AI Agent技术正在重构人机交互范式。通过自然语言理解、任务分解和多任务协同等能力，智能助理系统将逐步取代传统图形界面，为用户提供更自然流畅、更高效智能的新型交互体验。

异构算力

端侧突围赛的“智”胜关键

算力，始终是AI应用场景拓展与技术创新的核心要素。相较于云侧集中式部署的高算力CPU和GPU集群，端侧算力则呈现出显著的差异化特性。由于端侧设备数量庞大且分散，算力水平参差不齐，且功耗与成本约束严苛，这些因素催生出了多元化的端侧算力体系。从长远来看，异构计算无疑是端侧AI落地的最优解。

CPU作为端侧设备的基础计算单元，凭借其卓越的通用性，广泛应用于从入门级到高端的各类设备。Arm^® Cortex^®系列IP不仅满足稳定的通用计算需求，其配套的Kleidi软件库还针对CPU的AI加速能力进行了专门优化。在实际应用中，CPU通常作为AI工作负载的起点，为开发者提供便捷的部署路径。此外，随着LLM日趋轻量化，CPU也承担着更为复杂的AI计算任务。

NPU则凭借其出色的能效优势逐渐成为端侧AI计算的主力担当，特别适合处理高算力、长耗时的AI任务。安谋科技自研新一代“周易”NPU采用专为大模型特性优化的架构设计，将对外带宽提高至256GB/s，全面支持FP16计算，并提供完整的INT4软硬量化加速方案。通过软硬协同优化，“周易”NPU实现了多核算力的高效扩展，为终端设备的智能化升级提供了核心动能。

在图形相关的AI计算领域，GPU具有独特优势，在视频处理和游戏场景中表现尤为突出。Arm Mali^™和Immotalis^™系列GPU在保持优异能效比的同时，通过并行计算架构有效支持各类AI工作负载，以实现图形渲染与AI计算的协同优化，为用户带来更加沉浸式的体验。

CPU、NPU和GPU的协同工作，并结合端云混合计算模式，能够满足绝大多数AI应用场景的不同算力需求。随着异构计算技术的持续演进，端侧设备正逐步承担更大比例的AI计算任务，这一趋势正在重塑整个AI计算生态。

软件框架

连接AI应用与算力的关键纽带

AI软件生态作为应用发展的土壤，承担着高效调度硬件算力的重任。当前，云侧已形成以“PyTorch+CUDA+GPU”为核心的成熟技术体系，为AI研发提供标准化支持；而端侧AI生态则暴露出诸多亟待解决的问题，例如生态碎片化严重、大模型适配能力欠佳、跨平台兼容性差、扩展性受限、无法快速响应应用功能迭代需求等。

为此，安谋科技“周易”NPU提供了一套完整的AI软件平台——“周易”Compass，使开发者可以便捷、快速地进行算法移植和部署。该平台提供一整套端到端的AI软件栈工具，覆盖了仿真器、驱动、Runtime、OpenCL语言编译器、Compiler网络编译器等，能够有效支持不同层级的开发需求。此外，平台新增了对备受开发者关注的Hugging Face模型的支持，并通过开源网络编译器的Parser和OPT、适配TVM、发布DSL特定领域编程语言等举措，切实有效地帮助开发者将基于“周易”NPU的AI技术融入到各类开发项目中。

当前，端侧AI软件生态正处于关键发展期，需要在标准化与定制化之间寻找平衡。产业界普遍预期，未来2到3年将形成1至2个主导性的基准框架，需要在保持开放性的同时，深度优化特定硬件平台的计算效能。

展望：AI应用为端侧芯片

按下创新“加速键”

回顾PC互联网与移动互联网的发展历程，应用需求始终是芯片技术迭代的关键驱动力。在移动应用场景中，对性能与功耗兼顾的需求使CPU大小核架构成为主流；消费者对拍照质量的高要求，推动芯片级影像处理技术成为旗舰手机的标配；人们随时随地的游戏和观影需求，也促使芯片厂商不断提升芯片图形渲染和视频编解码能力。

步入新一轮AI技术浪潮，如何构建异构算力体系，协同适配软件生态，加速AI应用在PC、手机、智能穿戴、机器人、座舱等场景的落地，这无疑将成为端侧厂商们实现可持续发展的关键命题。安谋科技将深耕端侧AI领域，通过自研“周易”NPU等产品、结合Arm体系优势、以及开放开源软件生态，持续赋能AI时代的技术创新与产业升级。

声明：Arm、Cortex、Immortalis和Mali是Arm Limited（或其子公司）的注册商标或商标。