端侧AI时代,如何铸造软硬协同“芯”底座?

端侧AI时代,如何铸造软硬协同“芯”底座?

2025-04-13

以下文章来源于微信公众号——全球计算联盟GCC

2025年,随着DeepSeek、机器人、AI Agent、GPT-4o多模态生成等AI应用的接连破圈,“深度思考”、“智能体”、“多模态”等AI概念迅速从专业领域进入大众视野,这不仅催生了全新的大模型软硬件生态,加速各类AI应用形态和终端硬件产品迭代升级,更通过爆发式增长的用户体验,让消费者切实感受到了AI的独特创新价值。行业巨头纷纷加码投入,为模型训练、推理计算、应用开发等核心环节筑牢底层技术支撑。

在云侧AI场景如火如荼发展的同时,端侧创新也在奋进提速。包括芯片厂商、操作系统开发商、手机及PC等消费电子企业在内的产业链上下游玩家,共同探索算力提升、成本优化、应用场景拓展等关键要素的平衡之道。

端侧设备

AI技术普惠的重要载体

随着智能终端设备的不断普及与算力升级,端侧AI已从技术概念转化为实际生产力。PC、手机、机器人、XR设备、智能座舱等消费级终端凭借高渗透率与实时交互特性,成为了AI端侧落地的重要载体。在芯片性能提升和模型优化技术的双重驱动下,当前端侧设备已具备高效部署AI模型的能力,加速了AI应用从云端向终端的迁移。在技术实现路径上,以下几个关键方向值得重点关注:

SLM轻量化模型方面,相较于云端百亿级参数大语言模型(LLM),1.5B至7B参数规模的小语言模型(SLM)凭借优异的计算效率和更低的内存占用,逐渐成为端侧AI的主流选择。以DeepSeek-R1蒸馏版为例,该模型在保持高性能的同时,有效降低计算资源需求,进一步拓宽了端侧AI的应用边界。

多模态计算领域,随着LLM和SLM技术的持续迭代,搭载摄像头、麦克风等多模态传感器的各类主流消费电子在AI技术的加持下,正加速推动图像识别和语音交互技术升级,这不仅实现了隐私数据的本地化安全处理,同时为机器人等新兴应用场景注入了强劲的增长潜能,使其能够实时处理海量音视频数据,进而显著提升环境感知和交互等关键能力。

Copilot智能生产力工具方面,生成式AI已广泛应用于编程辅助、智能办公、图像处理、音视频编辑等诸多生产力场景。这类应用对低延迟和隐私保护的特殊要求,使其天然适配端侧计算架构,同步带动终端算力需求的高速增长。

AI Agent技术正在重构人机交互范式。通过自然语言理解、任务分解和多任务协同等能力,智能助理系统将逐步取代传统图形界面,为用户提供更自然流畅、更高效智能的新型交互体验。

异构算力

端侧突围赛的“智”胜关键

算力,始终是AI应用场景拓展与技术创新的核心要素。相较于云侧集中式部署的高算力CPU和GPU集群,端侧算力则呈现出显著的差异化特性。由于端侧设备数量庞大且分散,算力水平参差不齐,且功耗与成本约束严苛,这些因素催生出了多元化的端侧算力体系。从长远来看,异构计算无疑是端侧AI落地的最优解。

CPU作为端侧设备的基础计算单元,凭借其卓越的通用性,广泛应用于从入门级到高端的各类设备。Arm® Cortex®系列IP不仅满足稳定的通用计算需求,其配套的Kleidi软件库还针对CPU的AI加速能力进行了专门优化。在实际应用中,CPU通常作为AI工作负载的起点,为开发者提供便捷的部署路径。此外,随着LLM日趋轻量化,CPU也承担着更为复杂的AI计算任务。

NPU则凭借其出色的能效优势逐渐成为端侧AI计算的主力担当,特别适合处理高算力、长耗时的AI任务。安谋科技自研新一代“周易”NPU采用专为大模型特性优化的架构设计,将对外带宽提高至256GB/s,全面支持FP16计算,并提供完整的INT4软硬量化加速方案。通过软硬协同优化,“周易”NPU实现了多核算力的高效扩展,为终端设备的智能化升级提供了核心动能。

在图形相关的AI计算领域,GPU具有独特优势,在视频处理和游戏场景中表现尤为突出。Arm Mali和Immotalis系列GPU在保持优异能效比的同时,通过并行计算架构有效支持各类AI工作负载,以实现图形渲染与AI计算的协同优化,为用户带来更加沉浸式的体验。

CPU、NPU和GPU的协同工作,并结合端云混合计算模式,能够满足绝大多数AI应用场景的不同算力需求。随着异构计算技术的持续演进,端侧设备正逐步承担更大比例的AI计算任务,这一趋势正在重塑整个AI计算生态。

软件框架

连接AI应用与算力的关键纽带

AI软件生态作为应用发展的土壤,承担着高效调度硬件算力的重任。当前,云侧已形成以“PyTorch+CUDA+GPU”为核心的成熟技术体系,为AI研发提供标准化支持;而端侧AI生态则暴露出诸多亟待解决的问题,例如生态碎片化严重、大模型适配能力欠佳、跨平台兼容性差、扩展性受限、无法快速响应应用功能迭代需求等。

为此,安谋科技“周易”NPU提供了一套完整的AI软件平台——“周易”Compass,使开发者可以便捷、快速地进行算法移植和部署。该平台提供一整套端到端的AI软件栈工具,覆盖了仿真器、驱动、Runtime、OpenCL语言编译器、Compiler网络编译器等,能够有效支持不同层级的开发需求。此外,平台新增了对备受开发者关注的Hugging Face模型的支持,并通过开源网络编译器的Parser和OPT、适配TVM、发布DSL特定领域编程语言等举措,切实有效地帮助开发者将基于“周易”NPU的AI技术融入到各类开发项目中。

当前,端侧AI软件生态正处于关键发展期,需要在标准化与定制化之间寻找平衡。产业界普遍预期,未来2到3年将形成1至2个主导性的基准框架,需要在保持开放性的同时,深度优化特定硬件平台的计算效能。

展望:AI应用为端侧芯片

按下创新“加速键”

回顾PC互联网与移动互联网的发展历程,应用需求始终是芯片技术迭代的关键驱动力。在移动应用场景中,对性能与功耗兼顾的需求使CPU大小核架构成为主流;消费者对拍照质量的高要求,推动芯片级影像处理技术成为旗舰手机的标配;人们随时随地的游戏和观影需求,也促使芯片厂商不断提升芯片图形渲染和视频编解码能力。

步入新一轮AI技术浪潮,如何构建异构算力体系,协同适配软件生态,加速AI应用在PC、手机、智能穿戴、机器人、座舱等场景的落地,这无疑将成为端侧厂商们实现可持续发展的关键命题。安谋科技将深耕端侧AI领域,通过自研“周易”NPU等产品、结合Arm体系优势、以及开放开源软件生态,持续赋能AI时代的技术创新与产业升级。

声明:Arm、Cortex、Immortalis和Mali是Arm Limited(或其子公司)的注册商标或商标。