有没见过的?上传图片试一试
+
* 上传图片后会自动进行搜索
* 请上传不大于4MB的图片
科普
KEPU
播放速度
机器人:听懂与做到之间,“理解”很难
发布时间:2026-07-02
打印
{{ isAudioPlay ? '暂停播放' : '播放声音' }}
放大 缩小
家庭环境是一个相对开放、不断变化的物理环境。同样一张桌子,今天放着水杯,明天可能放着水果、玩具或者药品;老人、小孩、宠物都会不断改变环境状态。
  家庭是典型的非结构化环境,不固定的环境、不固定的任务、不固定的家庭成员习惯,正是它区别于标准化工业场景的本质。这意味着机器人在家庭中,面对的是一个时时变化的开放世界。
  中国科学院自动化研究所研究员陈盈盈说,具身智能机器人在“非结构化开放世界”中的泛化能力不足,是其进入家庭场景最大的技术障碍。
  这是一个简单的例子:“桌子边缘放着一个半满的玻璃杯,机器人不仅要识别‘这是杯子’,还应推断出它是易碎的、里面有液体、轻微碰撞就可能掉落。”
  对机器人说“把桌上那杯水递给我”,它在语言层面完全能理解。但真要动手,它得知道什么是桌子和杯子,以及杯子在三维空间中的确切位置,该用多大的力握持杯子,水满时移动要平稳,递到人手里时要等对方握住才能松手。
  “但这些都不是写在指令里,而是刻在物理世界的规律里。机器人能‘听懂’指令,但距离‘做到’,还需要它对三维空间、物理因果、动力学规律有深刻的‘理解’”。
  目前,很多机器人通过训练已经能够认出一个杯子,但认出杯子和“理解什么是杯子、像人一样识别杯子”完全是两回事:“理解”是最核心的关键词。
  “当前行业讨论最多的是模型、算法和参数规模,但机器人想要进入家庭,真正需要突破的,是像人一样理解物理世界、理解空间关系、理解事物共性的能力,这需要智能科学底层理论的突破。只有真正具有了‘理解能力’,像人类一样理解自己与整个物理世界之间的关系,机器人才能服务家庭真实需求,在复杂多变环境中应对各种挑战,乃至像人类一样使用传统工具来服务人类。”
  “那么,人类是怎样理解真实世界的?图式理论(Schema Theory)中“理解”的定义,就是用头脑中已有的图式(结构、框架、认知程序)去解读一个事物。
  “我们希望机器人能直接理解真实世界,这首先来源于它对传感信息的获取,以及参照人类认知过程,建构的与其外部世界的映射关系。其中,理解的核心是‘识别’,这种能力让机器人能够举一反三且区分更具体的差异。”
  还是以“那杯水”为例。具有“理解”能力的具身智能,不需要通过认识一万个杯子,只要看到一个新杯子,就能知道它是杯子;在知道它们都是杯子的基础上,还能分辨出哪个是你的杯子,哪个是我的杯子。“机器人拥有了像人类一样的理解能力,就能理解空间关系、远近关系以及一些最基本的物理常识,例如物体为什么会掉落、为什么会反弹……而这些都是人类成长过程中天然具备的能力,也是机器人真正具备智能的重要基础。
“遗憾的是,到目前为止,我们还缺乏一个关于真实世界的动作模型,缺乏一个对时间、空间、物理规律乃至多模态、全模态进行理解、推理、规划、决策的模型。”智源研究院院长王仲远坦言,以语言为主导的基础模型,并不是高效编码三维空间、物理因果与动作信息的架构。(改编自 科技日报2026年7月2日)