Mind over Matter:
From Anatomy to Autonomy

心胜于物: 从具身到智能

2025-12-05

我们接近通用机器人的「ChatGPT 时刻」了吗?

Figure 03 的现实: TIME 记者在同一场 demo 里的记录

机器人往洗衣机装衣物时,连续两次把衣服掉在地上,始终不会自己捡起.

最终由工程师走上前,把衣物移出镜头,刻意移出我的视线.

But the robot’s limitations were too obvious to hide

Neo 的真相: 坦诚的 Teleop-first 路线

宣传: 像家用版 ChatGPT, 能接”家务清单”: folding laundry, organizing shelves, taking out trash…

高度依赖 远程遥操作 + 人类专家兜底, 而非真正端到端自主.

Data can solve almost all current problems.

Brett Adcock1, CEO of Figure AI

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:OOD 场景下的性能崩塌

本质:基于像素的插值拟合,缺乏结构化推理

看似泛化,其实是场景记忆

  • 视觉扰动敏感:仅改变物体材质(如透明度),更换背景纹理或调整光照角度,推断出的动作轨迹即出现显著偏差
  • 物理参数偏移:物体位置偏离示教分布几厘米,或台面高度微调,成功率即从宣称的 90%+ 骤降至不可用状态
  • 模型并未理解物理规律,而是通过拟合条件概率 \mathbb{P}(a_t \mid o_{\le t}),在训练数据的流形附近建立平滑映射
  • 一个巨大的“软性查找表”:只有当观测 o_t 落在已有数据的密集区时,才能检索出正确的动作

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:长程任务中的执行中断与死锁

本质:短视的反应式策略,缺乏内部任务状态

多阶段任务一偏轨就“断片”

  • 缺乏任务进展的内在表示,强依赖于示教“黄金轨迹”的相似度,轻微偏差就停滞、抖动,动作序列整体崩溃

没有真正的纠错与自救能力

  • 不会回滚或重规划,抽屉卡住也沿原轨迹硬推,甚至与环境碰撞,处于“半成功”边界态时容易死锁,缺乏“救回来”的修正动作
  • 短任务在固定场景下可复现,一拉长到 5–10 步成功率陡降,错误集中后半段;同类失败在不同 episode 反复出现,经验无法在线写入策略

只实现了”像素 → 动作”的局部反应式映射

  • 主流 VLA 使用 a_t \sim \pi(a_t \mid o_t)\pi(a_t \mid o_{[t-k,t)}) 这类近似反应式策略,等价于假设:“看到当前/最近几帧,就足够决定接下来要做什么”

缺乏内生记忆机制

  • 模型内部缺乏一条稳定的”任务进度条”,无法表示任务在世界中进行的状态
  • 经验只在训练期更新参数,运行时几乎不更新,同类失败反复出现
  • 长程任务被摊平为一串局部反应式指令,无法被组织成“一整件事”

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:高昂的部署成本与”示教地狱”

本质:以离线监督学习应对开放世界挑战

  • 环境迁移成本极高:每一处新的部署环境(如不同家庭的厨房布局,不同工厂的光照环境),通常需要重新采集演示数据并微调模型
  • 长尾问题的数据补丁
    • 针对每一个特定的失败案例,目前的标准解法是人工采集针对性的修复数据
    • 这种”打补丁”式的工程方法导致数据集臃肿且缺乏结构化,边际收益递减
  • “持续学习”的伪命题
    • 当前的开发范式是:采集数据 → 离线训练/微调 → 冻结模型 → 部署
    • 这种设计时的学习模式,意味着机器人在运行时遇到的新情况无法即时转化为经验
  • 无法通过”蛮力”穷尽长尾分布
    • 物理世界的长尾分布是开放且无限的
    • 把通用机器人问题退化为劳动密集型的数据标注工程无法覆盖物理世界无限的复杂度

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

Can data really
solve those problems?

Big World Hypothesis1

小世界:可以靠「记路径」

  • 世界的复杂度不超过 agent 的表示和算力
  • 设计者可以刻意把环境做“小”,让简单规则或查表就够用
  • 通过示教 + 轨迹插值,基本能把主要情况「提前写死」
  • 记住家里每个角落: 熟悉之后,几乎不再遇到真正的新情况

大世界:必须会「找新路」

  • 世界比 agent 大很多个数量级
  • 状态空间开放,长尾几乎无限,新情况是常态不是例外,不可能提前枚举所有轨迹和 corner case
  • agent 只能依靠抽象 + 泛化 + 在线持续学习,在运行时一边探索一边决策
  • 被扔到一片陌生的野外: 每一步都要自己发现新的路径,并随时改路

The Map is Not the Territory: 物理世界无法被简单 Token 化

  • 语言是足够好的低维压缩与投影
    • 文本与代码是人类高度抽象后的产物,Token 空间已有效过滤了物理世界的噪声
    • 对于“旁观者”视角的互联网任务,这种离散的流形表示已经足够完美
    • 预测错误通常无物理代价,模型的输入输出可以自闭环

  • 具身智能面临”无限粒度”的物理交互
    • 环境是多尺度耦合系统:宏观的光照形变,微观的摩擦与接触力学
    • 物理世界没有完美的离散化,微小扰动在连续空间中会指数级扩散
  • 决策不闭环 交互导致的数据分布偏移和非平稳性
    • 决策是对环境的主动干预,而不仅仅是预测
    • 动作会直接改变未来的状态分布
  • 感知不完备 部分可观测性
    • 传感器只能捕捉环境的部分信息,存在噪声与盲区
    • 需要通过记忆与推理来弥补感知的不足
  • 不存在足够好的低维表示 必须直面物理世界的所有复杂性

VLA: Verticalized LLM for Action

  • VLM 的世界仍是 token-space

    在互联网图文上学模式,对 3D 结构、力学没有真实感知,“物理常识”是语言统计的幻觉

  • perception–action 结构性断裂

    VLM 通过窄带子任务字符串接到动作 expert,语义与控制分离学习,通用能力难迁移到连续控制

  • 没有形成 perception–action loop

    动作只改进末端 expert,VLM 不因交互更新世界理解,无闭环反馈修正感知与决策

VLA用超级大的VLM把一堆teleop 轨迹拟合成”看起来像人”的快反应,
再幻想这些快反应会自己”涌现”出慢思考

瓶颈不在「数据规模」,而在「路径不明」

路径不明 ·

Yann LeCun

The big secret… is that companies have no idea how to make their robots smart enough to be generally useful.1

模态缺位 ·

Rodney Brooks

Today’s humanoids will NOT learn dexterity in the real world, just from watching videos and doing end-to-end learning.2

资源错配 ·

国家发改委

防范重复度高的产品「扎堆」上市,研发空间被压缩等风险.3

整个行业都在堆 demo,赌未来,但缺乏可验证的技术路线

VLA是在错误模态上放大投入, 但我们真的想要研究触觉吗?

资本盲目跟风炒作,导致长周期基础研究被边缘化

Warning

结论:当技术路线本身尚不清晰时,盲目扩大数据规模并非逼近真理,而是在放大系统性风险

Ilya Sutskever 的机器人时间线

2017 · 过度乐观期

「三年内机器人应该被完全解决,AI 还能攻克大定理,拿编程竞赛冠军」1

2019 · Dactyl 高光时刻

单手还原魔方——宣传「接近人类灵巧度」的里程碑2

2021 · 关闭机器人团队

「机器人拿不到足够数据,看不到 scale 的路径」3

2023 · 「需要极大决心」

「你需要真的爱机器人: 要造几万台机器人,长期采集数据」4

2025 · 冷静悲观期

「真实世界中快速学会新技能,对机器人来说非常够不着」5

We’re moving from the age of scaling to the age of research

Let’s go back
to the age of research

What are we talk about when we talk about embodiment

  • 一只小猫可以自由移动(Active),另一只被固定在篮子里(Passive )
  • 两只小猫接收到相同的视觉刺激

只有主动组的小猫发展出正常的视觉引导行为: 接近桌边时适当伸出爪子,对靠近的物体做出眨眼反应, 并能够避开视崖

经典的Held&Hein1旋转木马小猫实验经常被引用来说明具身性(embodiment)在认知发展中的重要作用

  • 但实际上具身 ≠ 智能:给系统装上传感器和关节,并不会让智能“自动涌现”
  • 真正重要的东西可能来自于与智能体在与环境的交互构建的感知行为闭环, 在探索中学习的自主性
  • 在自然界里,我们只在“有身体的生物”身上看到这种探索式学习几乎没有无身体却能与环境交互学习的样本
  • 这让我们很容易把“具身”误当成原因本身,而忽略了背后那套在交互中学习的机制

割裂的闭环:Agent的共性瓶颈

维度 Code Agent Embodied agent
适用范围 / 分布依赖 在主流技术栈和高曝光开源仓库中表现亮眼,但一旦进入企业内部工程或全新项目,依赖理解、架构约束等错误显著增多。 在实验室布景和固定 Demo 场景中成功率很高,但迁移到不同场地、不同布置或真实家庭环境时,性能快速退化。
长程任务中性能退化 多轮修改后难以稳定维护项目状态:早期设计约束和不变量常在后续重构中被破坏,同类 bug 在不同版本间反复出现。 在多阶段操作中,遭遇轻微偏差或噪声时容易“迷失步骤”,出现抖动、停滞或错误收尾,缺乏清晰的内部任务进度表示。
缺乏自主性 名义上是“自动写代码 / 自动 PR”,实际仍依赖人类拆解需求、审阅和修订 patch、补测试与制定回滚策略。 名义上是“自主机器人”,实际需要工程师与操作员持续示教、重置环境、监控状态与处理异常,以确保任务完成与安全边界。

流体智能的关键特征

LeCun(World Model) Ilya(The “it” factor) Sutton(OAK)
在部署时学习 intelligent machines that learn more like animals and humans, that can reason and plan A human being is not an AGI. Instead, we rely on continual learning. We need agents that learn continually. 终身学习
样本效率/泛化性 Using such world models, animals can learn new skills with very few trials. These models somehow just generalize dramatically worse than people. solution methods that efficiently utilize the limited resources of the agent. 在分叉点上做“心理摸奖”(vicarious trial‑and‑error)1
自我激励/好奇心/情绪 whose behavior is driven by intrinsic objectives, rather than by hard-wired programs, external supervision, or external rewards. maybe what it suggests is that the value function of humans is modulated by emotions in some important way that’s hardcoded by evolution. In a biological system, we might think of rewards as analogous to the experiences of pleasure or pain. 多巴胺, 对未来的模拟改变了对当前的选择, 对过去的模拟加强了对世界的建模2
世界模型/反事实推理 The world model module predicts possible future world states as a function of imagined actions sequences proposed by the actor. The value function lets you short-circuit the wait until the very end: after a thousand steps of thinking, you conclude a direction is unpromising The model takes a state and a way of behaving, and tells you what the result state will be. 海马体和 PFC 的表征呈现出“预测性”:它们编码的是将要抵达的位置、未来路径的抽象结构,而不只是当前感受。3

联合探索”流体智能”学习系统(合作框架)

资源投入

  • 狮子山实验室:算力及基础设施infra
  • 智谱:数据、算法
  • 联合资金池 → 数据 · 评测等第三方能力

技术主线

  • 生成理解一体化
  • 推理时计算
  • 潜在空间推理/记忆
  • 基于世界模型的exploration learning