Mind over Matter: From Anatomy to Autonomy

我们接近通用机器人的「ChatGPT 时刻」了吗?

Figure 03 的现实: TIME 记者在同一场 demo 里的记录

机器人往洗衣机装衣物时,连续两次把衣服掉在地上,始终不会自己捡起.

最终由工程师走上前,把衣物移出镜头,刻意移出我的视线.

But the robot’s limitations were too obvious to hide

Neo 的真相: 坦诚的 Teleop-first 路线

宣传: 像家用版 ChatGPT, 能接”家务清单”: folding laundry, organizing shelves, taking out trash…

高度依赖远程遥操作 + 人类专家兜底, 而非真正端到端自主.

Data can solve almost all current problems.

— Brett Adcock¹, CEO of Figure AI

Video

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:OOD 场景下的性能崩塌

本质:基于像素的插值拟合,缺乏结构化推理

Video

看似泛化,其实是场景记忆

视觉扰动敏感:仅改变物体材质(如透明度),更换背景纹理或调整光照角度,推断出的动作轨迹即出现显著偏差
物理参数偏移:物体位置偏离示教分布几厘米,或台面高度微调,成功率即从宣称的 90%+ 骤降至不可用状态

模型并未理解物理规律,而是通过拟合条件概率 \mathbb{P}(a_t \mid o_{\le t}),在训练数据的流形附近建立平滑映射
一个巨大的“软性查找表”:只有当观测 o_t 落在已有数据的密集区时,才能检索出正确的动作

VLA 的三个核心问题：

高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛

p1: 如果我们把所有示教数据想象成在一个高维空间里的一团“点云”，那 VLA 学到的，多半是：在这些点云附近做平滑插值，而不是在理解背后的物理与因果结构。这会带来几种常见现象：对视觉扰动高度敏感只改变物体材质（换成透明的杯子）、换一块有花纹的桌布、或者把灯稍微调暗一点，动作轨迹就严重偏离。对物理参数轻微改变就“崩溃” 物体位置偏几厘米、台面高度高一点点，成功率就从“论文里的 90%+”变成现实中的“几乎不可用”。换句话说：它并没有真正“理解”杯子是中空的物体、毛巾是可变形的布料、重力会把东西往下拉；它只是把“你给它看的那些像素图像”记在了一个高维的“软查表”里。

王昊: 狮子山揭牌, 现场采数据

p2: 第二层问题是：没有内部任务状态，也就是没有“belief state / 内在进度条”。

大部分 VLA 策略都是近似反应式（reactive）的：它隐含的假设是： “我只要看当前或最近几帧，就足够决定下一步要干嘛。” 这在短、单步任务上还说得过去，比如“抓起桌上的那只杯子”。但在真实的长程任务里，这个假设会非常致命。典型表现包括：一偏轨就“断片” 多阶段任务中，一旦某一步略微失败，比如抽屉没完全拉开、毛巾没有完全铺平，后续所有动作都会“失去参照”，陷入停滞或毫无意义的抖动。没有自救与重规划能力抽屉卡住时，机器人会沿原轨迹继续硬推，而不是退回一点重试；任务处于“差一点成功”的边界态时，策略无法生成“补救动作”，只能认输。根本原因在于：模型内部没有一条稳定的“任务进度条”，不知道“我现在大概在第几步？之前失败过几次？世界处在怎样的中间状态？” 本质上，它只学会了“像素 → 动作”的局部映射，却没有学会“目标 → 计划 → 执行 → 纠错”的结构化流程。

p3: 环境迁移成本极高每换一个实际部署环境——家庭厨房、工业车间、餐厅后厨——都需要重新示教、重新采集数据、重新调参。长尾问题永远在后面追着你每一个特殊失败，团队的常规动作是：拍个视频、标注几条“专治该错误”的演示，再丢进训练集。这样得到的，是一个越来越臃肿、结构越来越差、边际收益越来越低的数据堆。 “持续学习”变成了伪命题真正有价值的是：机器人在运行时遇到新情况，能在在线学习的量级上迅速适应。但现在的范式是：智能发生在“设计时”，而不是“运行时”。

集团也因此对目前的 VLA 范式持怀疑态度，认为它并没有真正解决“通用具身智能”的核心问题。

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:长程任务中的执行中断与死锁

本质:短视的反应式策略,缺乏内部任务状态

多阶段任务一偏轨就“断片”

缺乏任务进展的内在表示，强依赖于示教“黄金轨迹”的相似度，轻微偏差就停滞、抖动，动作序列整体崩溃

没有真正的纠错与自救能力

不会回滚或重规划，抽屉卡住也沿原轨迹硬推，甚至与环境碰撞，处于“半成功”边界态时容易死锁，缺乏“救回来”的修正动作
短任务在固定场景下可复现，一拉长到 5–10 步成功率陡降，错误集中后半段；同类失败在不同 episode 反复出现，经验无法在线写入策略

只实现了”像素 → 动作”的局部反应式映射

主流 VLA 使用 a_t \sim \pi(a_t \mid o_t) 或 \pi(a_t \mid o_{[t-k,t)}) 这类近似反应式策略，等价于假设:“看到当前/最近几帧,就足够决定接下来要做什么”

缺乏内生记忆机制

模型内部缺乏一条稳定的”任务进度条”，无法表示任务在世界中进行的状态
经验只在训练期更新参数，运行时几乎不更新，同类失败反复出现
长程任务被摊平为一串局部反应式指令，无法被组织成“一整件事”

VLA 的三个核心问题：

高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛

p1: 如果我们把所有示教数据想象成在一个高维空间里的一团“点云”，那 VLA 学到的，多半是：在这些点云附近做平滑插值，而不是在理解背后的物理与因果结构。这会带来几种常见现象：对视觉扰动高度敏感只改变物体材质（换成透明的杯子）、换一块有花纹的桌布、或者把灯稍微调暗一点，动作轨迹就严重偏离。对物理参数轻微改变就“崩溃” 物体位置偏几厘米、台面高度高一点点，成功率就从“论文里的 90%+”变成现实中的“几乎不可用”。换句话说：它并没有真正“理解”杯子是中空的物体、毛巾是可变形的布料、重力会把东西往下拉；它只是把“你给它看的那些像素图像”记在了一个高维的“软查表”里。

王昊: 狮子山揭牌, 现场采数据

p2: 第二层问题是：没有内部任务状态，也就是没有“belief state / 内在进度条”。

大部分 VLA 策略都是近似反应式（reactive）的：它隐含的假设是： “我只要看当前或最近几帧，就足够决定下一步要干嘛。” 这在短、单步任务上还说得过去，比如“抓起桌上的那只杯子”。但在真实的长程任务里，这个假设会非常致命。典型表现包括：一偏轨就“断片” 多阶段任务中，一旦某一步略微失败，比如抽屉没完全拉开、毛巾没有完全铺平，后续所有动作都会“失去参照”，陷入停滞或毫无意义的抖动。没有自救与重规划能力抽屉卡住时，机器人会沿原轨迹继续硬推，而不是退回一点重试；任务处于“差一点成功”的边界态时，策略无法生成“补救动作”，只能认输。根本原因在于：模型内部没有一条稳定的“任务进度条”，不知道“我现在大概在第几步？之前失败过几次？世界处在怎样的中间状态？” 本质上，它只学会了“像素 → 动作”的局部映射，却没有学会“目标 → 计划 → 执行 → 纠错”的结构化流程。

p3: 环境迁移成本极高每换一个实际部署环境——家庭厨房、工业车间、餐厅后厨——都需要重新示教、重新采集数据、重新调参。长尾问题永远在后面追着你每一个特殊失败，团队的常规动作是：拍个视频、标注几条“专治该错误”的演示，再丢进训练集。这样得到的，是一个越来越臃肿、结构越来越差、边际收益越来越低的数据堆。 “持续学习”变成了伪命题真正有价值的是：机器人在运行时遇到新情况，能在在线学习的量级上迅速适应。但现在的范式是：智能发生在“设计时”，而不是“运行时”。

集团也因此对目前的 VLA 范式持怀疑态度，认为它并没有真正解决“通用具身智能”的核心问题。

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

现象:高昂的部署成本与”示教地狱”

本质:以离线监督学习应对开放世界挑战

环境迁移成本极高:每一处新的部署环境(如不同家庭的厨房布局,不同工厂的光照环境),通常需要重新采集演示数据并微调模型
长尾问题的数据补丁
- 针对每一个特定的失败案例,目前的标准解法是人工采集针对性的修复数据
- 这种”打补丁”式的工程方法导致数据集臃肿且缺乏结构化,边际收益递减

“持续学习”的伪命题
- 当前的开发范式是:采集数据 → 离线训练/微调 → 冻结模型 → 部署
- 这种设计时的学习模式,意味着机器人在运行时遇到的新情况无法即时转化为经验
无法通过”蛮力”穷尽长尾分布
- 物理世界的长尾分布是开放且无限的
- 把通用机器人问题退化为劳动密集型的数据标注工程无法覆盖物理世界无限的复杂度

VLA 的三个核心问题：

高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛

p1: 如果我们把所有示教数据想象成在一个高维空间里的一团“点云”，那 VLA 学到的，多半是：在这些点云附近做平滑插值，而不是在理解背后的物理与因果结构。这会带来几种常见现象：对视觉扰动高度敏感只改变物体材质（换成透明的杯子）、换一块有花纹的桌布、或者把灯稍微调暗一点，动作轨迹就严重偏离。对物理参数轻微改变就“崩溃” 物体位置偏几厘米、台面高度高一点点，成功率就从“论文里的 90%+”变成现实中的“几乎不可用”。换句话说：它并没有真正“理解”杯子是中空的物体、毛巾是可变形的布料、重力会把东西往下拉；它只是把“你给它看的那些像素图像”记在了一个高维的“软查表”里。

王昊: 狮子山揭牌, 现场采数据

p2: 第二层问题是：没有内部任务状态，也就是没有“belief state / 内在进度条”。

大部分 VLA 策略都是近似反应式（reactive）的：它隐含的假设是： “我只要看当前或最近几帧，就足够决定下一步要干嘛。” 这在短、单步任务上还说得过去，比如“抓起桌上的那只杯子”。但在真实的长程任务里，这个假设会非常致命。典型表现包括：一偏轨就“断片” 多阶段任务中，一旦某一步略微失败，比如抽屉没完全拉开、毛巾没有完全铺平，后续所有动作都会“失去参照”，陷入停滞或毫无意义的抖动。没有自救与重规划能力抽屉卡住时，机器人会沿原轨迹继续硬推，而不是退回一点重试；任务处于“差一点成功”的边界态时，策略无法生成“补救动作”，只能认输。根本原因在于：模型内部没有一条稳定的“任务进度条”，不知道“我现在大概在第几步？之前失败过几次？世界处在怎样的中间状态？” 本质上，它只学会了“像素 → 动作”的局部映射，却没有学会“目标 → 计划 → 执行 → 纠错”的结构化流程。

p3: 环境迁移成本极高每换一个实际部署环境——家庭厨房、工业车间、餐厅后厨——都需要重新示教、重新采集数据、重新调参。长尾问题永远在后面追着你每一个特殊失败，团队的常规动作是：拍个视频、标注几条“专治该错误”的演示，再丢进训练集。这样得到的，是一个越来越臃肿、结构越来越差、边际收益越来越低的数据堆。 “持续学习”变成了伪命题真正有价值的是：机器人在运行时遇到新情况，能在在线学习的量级上迅速适应。但现在的范式是：智能发生在“设计时”，而不是“运行时”。

集团也因此对目前的 VLA 范式持怀疑态度，认为它并没有真正解决“通用具身智能”的核心问题。

VLA 的泛化幻觉:从表象拟合到架构缺失

高维空间的轨迹插值

无法建模信念状态

人工标注无法收敛

Can data really
solve those problems?

VLA 的三个核心问题：

高维空间的轨迹插值
无法建模信念状态
人工标注无法收敛

p1: 如果我们把所有示教数据想象成在一个高维空间里的一团“点云”，那 VLA 学到的，多半是：在这些点云附近做平滑插值，而不是在理解背后的物理与因果结构。这会带来几种常见现象：对视觉扰动高度敏感只改变物体材质（换成透明的杯子）、换一块有花纹的桌布、或者把灯稍微调暗一点，动作轨迹就严重偏离。对物理参数轻微改变就“崩溃” 物体位置偏几厘米、台面高度高一点点，成功率就从“论文里的 90%+”变成现实中的“几乎不可用”。换句话说：它并没有真正“理解”杯子是中空的物体、毛巾是可变形的布料、重力会把东西往下拉；它只是把“你给它看的那些像素图像”记在了一个高维的“软查表”里。

王昊: 狮子山揭牌, 现场采数据

p2: 第二层问题是：没有内部任务状态，也就是没有“belief state / 内在进度条”。

大部分 VLA 策略都是近似反应式（reactive）的：它隐含的假设是： “我只要看当前或最近几帧，就足够决定下一步要干嘛。” 这在短、单步任务上还说得过去，比如“抓起桌上的那只杯子”。但在真实的长程任务里，这个假设会非常致命。典型表现包括：一偏轨就“断片” 多阶段任务中，一旦某一步略微失败，比如抽屉没完全拉开、毛巾没有完全铺平，后续所有动作都会“失去参照”，陷入停滞或毫无意义的抖动。没有自救与重规划能力抽屉卡住时，机器人会沿原轨迹继续硬推，而不是退回一点重试；任务处于“差一点成功”的边界态时，策略无法生成“补救动作”，只能认输。根本原因在于：模型内部没有一条稳定的“任务进度条”，不知道“我现在大概在第几步？之前失败过几次？世界处在怎样的中间状态？” 本质上，它只学会了“像素 → 动作”的局部映射，却没有学会“目标 → 计划 → 执行 → 纠错”的结构化流程。

p3: 环境迁移成本极高每换一个实际部署环境——家庭厨房、工业车间、餐厅后厨——都需要重新示教、重新采集数据、重新调参。长尾问题永远在后面追着你每一个特殊失败，团队的常规动作是：拍个视频、标注几条“专治该错误”的演示，再丢进训练集。这样得到的，是一个越来越臃肿、结构越来越差、边际收益越来越低的数据堆。 “持续学习”变成了伪命题真正有价值的是：机器人在运行时遇到新情况，能在在线学习的量级上迅速适应。但现在的范式是：智能发生在“设计时”，而不是“运行时”。

集团也因此对目前的 VLA 范式持怀疑态度，认为它并没有真正解决“通用具身智能”的核心问题。

Big World Hypothesis¹

小世界:可以靠「记路径」

世界的复杂度不超过 agent 的表示和算力
设计者可以刻意把环境做“小”,让简单规则或查表就够用
通过示教 + 轨迹插值,基本能把主要情况「提前写死」
记住家里每个角落: 熟悉之后,几乎不再遇到真正的新情况

大世界:必须会「找新路」

世界比 agent 大很多个数量级
状态空间开放,长尾几乎无限,新情况是常态不是例外,不可能提前枚举所有轨迹和 corner case
agent 只能依靠抽象 + 泛化 + 在线持续学习,在运行时一边探索一边决策
被扔到一片陌生的野外: 每一步都要自己发现新的路径,并随时改路

强场景依赖: 场景极度受控：固定台面高度、统一材质的毛巾、特定光照。摄像机角度为 demo 精心调校，很多失败是被剪掉的。强工程预调大量的示教轨迹、人工调参、力阈值和安全边界全部提前“写死”。任何一个小改动——换张桌布、换一束光——都可能让成功率断崖式下降。弱泛化、无自救能力一旦毛巾没抓好、边角露出、被风吹皱，大部分系统会直接“脑袋短路”：要么卡住不动，要么重复无意义的小动作。这一点我们也是花了最多力气解决的. 这说明 demo 本身门槛并不在“智能”，而在“工程投入 + 时间投入”。所以，Fold laundry demos 更像是： “在一个很小的、精心布置的世界里，把所有可能路径都提前记住”。

那在真正的大世界呢? - 大世界需要的不是记住多少路径，而是发现「路径」的能力 - 人可以记住家里的每个角落, 但在野外就必须要自主找路

The Map is Not the Territory: 物理世界无法被简单 Token 化

语言是足够好的低维压缩与投影
- 文本与代码是人类高度抽象后的产物,Token 空间已有效过滤了物理世界的噪声
- 对于“旁观者”视角的互联网任务,这种离散的流形表示已经足够完美
- 预测错误通常无物理代价,模型的输入输出可以自闭环

具身智能面临”无限粒度”的物理交互
- 环境是多尺度耦合系统:宏观的光照形变,微观的摩擦与接触力学
- 物理世界没有完美的离散化,微小扰动在连续空间中会指数级扩散

决策不闭环 交互导致的数据分布偏移和非平稳性
- 决策是对环境的主动干预,而不仅仅是预测
- 动作会直接改变未来的状态分布
感知不完备 部分可观测性
- 传感器只能捕捉环境的部分信息,存在噪声与盲区
- 需要通过记忆与推理来弥补感知的不足

不存在足够好的低维表示 必须直面物理世界的所有复杂性

VLA: Verticalized LLM for Action

VLM 的世界仍是 token-space

在互联网图文上学模式，对 3D 结构、力学没有真实感知，“物理常识”是语言统计的幻觉
perception–action 结构性断裂

VLM 通过窄带子任务字符串接到动作 expert，语义与控制分离学习，通用能力难迁移到连续控制
没有形成 perception–action loop

动作只改进末端 expert，VLM 不因交互更新世界理解，无闭环反馈修正感知与决策

VLA用超级大的VLM把一堆teleop 轨迹拟合成”看起来像人”的快反应，
再幻想这些快反应会自己”涌现”出慢思考

目前已经收敛到这个结构

VLM 的世界仍然是 token-space

预训练 VLM 主要在互联网图文上学习模式,对 3D 结构,接触,力学等物理属性没有真实感知能力,所谓”物理常识”更多是语言统计与像素模式的幻觉,而不是对真实世界的建模.

perception 与 action 之间存在结构性断裂

现有 VLA 通过一条窄带的子任务/字符串,把 VLM 接到一个单独的动作 expert 上,语义和控制分别在各自的子系统里学习,很难在统一表示中共享知识,VLM 的通用能力难以稳定迁移到具体机器人的连续控制.

训练过程中没有形成真正的 perception–action loop

机器人执行的动作几乎只改进末端的动作 expert,VLM 本身不会因为交互经验而更新对世界的理解,无法在闭环中利用反馈修正感知与决策,这限制了长期适应性和对开放世界的鲁棒性.

走出”动作 vertical 插件”范式

在这种结构下,VLA 更像是给 LLM 挂上一个机器人 vertical,而不是一个在物理世界中生长的统一大脑. 下一步必须面向 unified world model + continual perception–action learning 的新架构与新学习范式,让感知与动作在同一系统内共同学习,共同进化.

瓶颈不在「数据规模」,而在「路径不明」

路径不明 ·

Yann LeCun

The big secret… is that companies have no idea how to make their robots smart enough to be generally useful.¹

模态缺位 ·

Rodney Brooks

Today’s humanoids will NOT learn dexterity in the real world, just from watching videos and doing end-to-end learning.²

资源错配 ·

国家发改委

防范重复度高的产品「扎堆」上市,研发空间被压缩等风险.³

整个行业都在堆 demo,赌未来,但缺乏可验证的技术路线

VLA是在错误模态上放大投入, 但我们真的想要研究触觉吗?

资本盲目跟风炒作,导致长周期基础研究被边缘化

Warning

结论:当技术路线本身尚不清晰时,盲目扩大数据规模并非逼近真理,而是在放大系统性风险

Ilya Sutskever 的机器人时间线

2017 · 过度乐观期

「三年内机器人应该被完全解决,AI 还能攻克大定理,拿编程竞赛冠军」¹

2019 · Dactyl 高光时刻

单手还原魔方——宣传「接近人类灵巧度」的里程碑²

2021 · 关闭机器人团队

「机器人拿不到足够数据,看不到 scale 的路径」³

2023 · 「需要极大决心」

「你需要真的爱机器人: 要造几万台机器人,长期采集数据」⁴

2025 · 冷静悲观期

「真实世界中快速学会新技能,对机器人来说非常够不着」⁵

We’re moving from the age of scaling to the age of research

Let’s go back
to the age of research

What are we talk about when we talk about embodiment

一只小猫可以自由移动(Active),另一只被固定在篮子里(Passive )
两只小猫接收到相同的视觉刺激

只有主动组的小猫发展出正常的视觉引导行为: 接近桌边时适当伸出爪子,对靠近的物体做出眨眼反应, 并能够避开视崖

经典的Held&Hein¹旋转木马小猫实验经常被引用来说明具身性(embodiment)在认知发展中的重要作用

但实际上具身 ≠ 智能：给系统装上传感器和关节，并不会让智能“自动涌现”
真正重要的东西可能来自于与智能体在与环境的交互构建的感知行为闭环, 在探索中学习的自主性
在自然界里，我们只在“有身体的生物”身上看到这种探索式学习，几乎没有无身体却能与环境交互学习的样本
这让我们很容易把“具身”误当成原因本身，而忽略了背后那套在交互中学习的机制

割裂的闭环：Agent的共性瓶颈

维度	Code Agent	Embodied agent
适用范围 / 分布依赖	在主流技术栈和高曝光开源仓库中表现亮眼，但一旦进入企业内部工程或全新项目，依赖理解、架构约束等错误显著增多。	在实验室布景和固定 Demo 场景中成功率很高，但迁移到不同场地、不同布置或真实家庭环境时，性能快速退化。
长程任务中性能退化	多轮修改后难以稳定维护项目状态：早期设计约束和不变量常在后续重构中被破坏，同类 bug 在不同版本间反复出现。	在多阶段操作中，遭遇轻微偏差或噪声时容易“迷失步骤”，出现抖动、停滞或错误收尾，缺乏清晰的内部任务进度表示。
缺乏自主性	名义上是“自动写代码 / 自动 PR”，实际仍依赖人类拆解需求、审阅和修订 patch、补测试与制定回滚策略。	名义上是“自主机器人”，实际需要工程师与操作员持续示教、重置环境、监控状态与处理异常，以确保任务完成与安全边界。

流体智能的关键特征

	LeCun(World Model)	Ilya(The “it” factor)	Sutton(OAK)	人
在部署时学习	intelligent machines that learn more like animals and humans, that can reason and plan	A human being is not an AGI. Instead, we rely on continual learning.	We need agents that learn continually.	终身学习
样本效率/泛化性	Using such world models, animals can learn new skills with very few trials.	These models somehow just generalize dramatically worse than people.	solution methods that efficiently utilize the limited resources of the agent.	在分叉点上做“心理摸奖”（vicarious trial‑and‑error）¹
自我激励/好奇心/情绪	whose behavior is driven by intrinsic objectives, rather than by hard-wired programs, external supervision, or external rewards.	maybe what it suggests is that the value function of humans is modulated by emotions in some important way that’s hardcoded by evolution.	In a biological system, we might think of rewards as analogous to the experiences of pleasure or pain.	多巴胺, 对未来的模拟改变了对当前的选择, 对过去的模拟加强了对世界的建模²
世界模型/反事实推理	The world model module predicts possible future world states as a function of imagined actions sequences proposed by the actor.	The value function lets you short-circuit the wait until the very end: after a thousand steps of thinking, you conclude a direction is unpromising	The model takes a state and a way of behaving, and tells you what the result state will be.	海马体和 PFC 的表征呈现出“预测性”：它们编码的是将要抵达的位置、未来路径的抽象结构，而不只是当前感受。³

联合探索”流体智能”学习系统（合作框架）

资源投入

狮子山实验室：算力及基础设施infra
智谱：数据、算法
联合资金池 → 数据 · 评测等第三方能力

技术主线

生成理解一体化
推理时计算
潜在空间推理/记忆
基于世界模型的exploration learning
…

Mind over Matter: From Anatomy to Autonomy

我们接近通用机器人的「ChatGPT 时刻」了吗?

VLA 的泛化幻觉:从表象拟合到架构缺失

VLA 的泛化幻觉:从表象拟合到架构缺失

VLA 的泛化幻觉:从表象拟合到架构缺失

VLA 的泛化幻觉:从表象拟合到架构缺失

Big World Hypothesis1

The Map is Not the Territory: 物理世界无法被简单 Token 化

VLA: Verticalized LLM for Action

瓶颈不在「数据规模」,而在「路径不明」

Ilya Sutskever 的机器人时间线

What are we talk about when we talk about embodiment

割裂的闭环：Agent的共性瓶颈

流体智能的关键特征

联合探索”流体智能”学习系统（合作框架）

Mind over Matter:
From Anatomy to Autonomy

Big World Hypothesis¹