【专题研究】具身智能:多元技术路径编织智能交互新未来(上)

【专题研究】具身智能:多元技术路径编织智能交互新未来(上)

2024-11-25

以下文章来源于微信公众号——全球计算联盟GCC

全球计算联盟官方微信策划推出系列“专题研究”栏目,试与产业伙伴探讨产业技术的前沿动态与未来发展方向,共同为产业发展贡献智慧与力量。今日带来《具身智能:多元技术路径编织智能交互新未来(上)》,欢迎交流讨论!

在当今科技飞速发展的时代,具身智能已成为人工智能领域备受瞩目的前沿方向。当我们探寻人工智能思想的早期脉络时,艾伦·麦席森·图灵(Alan Mathison Turing)在 1950 年发表的经典文献《COMPUTING MACHINERY AND INTELLIGENCE》便赫然浮现。机器智能深度思考的理念,最初便在这样的学术思辨中崭露头角,为后续人工智能多元分支的衍生如具身智能的兴起埋下了最初的思想根基,推动着世代研究者们从不同视角去探究智能的本质与实现途径。

该文献最初发表于1950年10月的《Mind》期刊第59卷第236期,页码为第433-460页。(查看链接https://academic.oup.com/mind/article/LIX/236/433/986238)

在早期理论的滋养与时代需求的驱动下,具身智能逐步从朦胧的构想走到聚光灯下,开启在人工智能领域高速发展的崭新篇章,不断拓展着智能体与物理世界交互的边界与可能。具身智能是在赋予智能体在物理世界中自主交互的能力,通过感知、决策和行动的紧密结合,实现与环境的深度融合。随着多年发展,如今具身智能已成为人工智能领域备受瞩目的前沿方向,取得了诸多令人振奋的成果,不断推动着智能机器人向更加智能、灵活和实用的方向迈进,为解决现实世界中的复杂问题提供了全新的思路和方法。

一、具身智能的核心技术要素与挑战

(一)感知与理解物理世界

对于智能体而言,要想在物理世界中自如行动,强大的感知能力无疑是首要条件。视觉感知借助如RGB、深度、法线贴图等多种视觉传感器数据,能够为智能体提供物体的初步形状、位置以及姿态等基础信息,然而现实世界的复杂性远远超出了单一视觉感知所能涵盖的范畴。例如在物流仓库这一典型场景中,当机器人执行货物搬运任务时红外线式深度感知、触觉感知和力感知等多模态感知能力的协同运作就显得至关重要:触觉感知能够让机器人敏锐地感知到货物的表面材质,进而辅助其调整抓取方式;力感知则可确保机器人精确控制抓取和搬运过程中的力度,有效防止因用力不当而导致货物受损等。

模拟在物流场景中的机器人感知,图片由AIGC生成,仅供参考。

实现多模态感知数据的有效融合与深度理解绝非易事。不同模态的数据犹如不同语言,相互间存在隔阂,如何让它们协同互补,构建精准全面的物理世界认知模型,是当下研究的一大难题。并且,从海量感知数据里挖掘出实用的物理常识也颇为艰巨,智能体需要深入理解物体物理属性,而这则需设计复杂、高效的算法来探寻其中规律。就像制造业中机器人加工金属零部件时,依据力反馈、视觉形变与温度变化等多模态数据,总结不同工艺下金属的特性,如硬度与热胀冷缩变化,以优化加工参数。在笔者看来,这不仅是技术上的挑战,更是对我们如何理解智能体与物理世界交互本质的深度探索。

目前对具身智能领域的观察来看,Noematrix穹彻智能(专注于具身智能技术开发与应用的创新企业,聚焦“以力为中心”的具身智能大模型和相关基础设施的研发)积极探索通过对大量实例的深入分析,以像素级别的精细信息为切入点,深入理解诸如微波炉沿指定轴打开等操作方式,为智能体积累物理操作经验提供了有益的思路:例如,通过分析微波炉开门时的动作、力的作用点以及门的运动轨迹等像素级信息,智能体可以学习到关于旋转轴、力的传递和物体运动的物理常识。尽管如此,从整体视角审视,要从海量感知数据中高效提炼物理规律,并使智能体能够灵活应对诸如物流搬运这类复杂多变的场景,仍需科研人员持之以恒地钻研与攻克。

(二)决策与规划能力

在具身智能的体系中,决策与规划能力直接决定了智能体执行任务的质量和效率,是智能体展现智能行为的核心环节。在具身智能体系架构中,决策与规划能力直接关乎智能体执行任务的质量与效率,堪称智能体彰显智能行为的核心枢纽。

仍以物流仓库场景为例,当智能体接收到“将一箱易碎物品从货架A搬运到指定区域B,并确保沿途避开其他障碍物和正在运行的设备”这般任务指令时,它需迅速激活强大的分析机制,全面综合考量物品的重量、形状、易碎特性,以及货架布局、周围障碍物分布、设备运行轨迹等众多错综复杂的因素,进而规划出一条既安全又高效的搬运路径。此过程涉及复杂的空间推理,要求智能体精确计算可行路径,并合理编排每一个动作序列。具体而言,智能体首先依据货物的形状与重量,精准调适机械臂的姿态,确保稳固抓取货物;随后依据实时感知的周围环境信息,灵活调控移动底盘的行进方向与速度,巧妙避开障碍物与运行中的设备,这一系列动作的流畅衔接与精准执行,充分考验着智能体的决策与规划能力。

操作物理常识大模型在智能体的决策进程中发挥着不可或缺的关键作用。基于对物理常识的深刻领悟,智能体能够在极短时间内作出精准的力位混合决策。例如,在抓取易碎物品时,智能体可依据物品的几何特征、材质属性以及过往任务经验所积累的物理常识,迅速锁定最为适宜的抓取位置与力度大小,确保抓取动作的稳定性与可靠性,最大程度降低对易碎物品造成损坏的风险。然而,具身智能所涉及的空间维度极为复杂,数据获取成本高昂且数据类型特殊,并非简单的互联网文本数据,而是从“视觉感知”到“动作执行”的专用数据。在此情形下,单纯依赖大量堆砌数据来提升泛化能力显然不切实际,这迫切需要科研人员从基本原理出发,精心构建具有高度适应性与强大泛化能力的决策模型,以切实满足不同场景与多样化任务的实际需求。