汽车工厂机器人#
核心:预设计并计算轨迹,随后只是重放轨迹,实际上是不断 “重放”
问题:
- 部署耗时
- 无法灵活处理多任务
如果想要足够通用,则需要像人,才能实现 “通用机器人”(Task generalists),能够形成 perception-action loop(感知 - 动作循环)。
实际上是形成了一个神经网络:
输入:本体状态、控制信息、环境信息 输出:下一步的关节控制
VLA(Vision Language Action Model)#
神经网络:
- 输入:V (vision) + L (language),现在有 VLM 模型
- 输出:A (action)
思维活动:
- 快系统(Faster system):动作生成
- 慢系统(Slower system):复杂推理
人脑:
- 大脑进行感知
- 小脑控制动作
观点:没有具身智能,就没有 AGI。
困境#
具身智能最大的问题:缺少真实数据,不能满足 Scaling Law 所需的数据量。
和智能驾驶不一样,在真实世界中快速采集到所需数据是几乎不可能的。
神经网络还有一个问题,就是泛化性,因为在真实世界中数据的分布可能会与训练集的分布不一致。
可能的解决方法:合成数据。
优点:
- 无需注释
- 高效节约时间
- 可转移到现实世界