自变量开启“进家”倒计时，CEO王潜：全球还没机器人可独立完成“家庭任务”

　　新浪科技讯 4月22日下午消息，自变量机器人（简称：自变量）发布新一代机器人进家庭计划，宣布5月25日后旗下机器人将搭载自研具身智能基础模型WALL-B入驻真实家庭，开启机器人服务家庭生活的成长之旅。从即日起，自变量开始招募首进家庭机器人的家长，用户可通过官方渠道提交申请。

核心看点

　　在机器人进入家庭的过程中，家庭场景随机、碎片、不断变化的特性，成为了限制机器人使用场景的一大难题。自变量创始人兼CEO王潜指出，目前全球没有任何一台机器人可以在无遥控操作的情况下，独立完成家庭场景中的综合整理任务。舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强，但这些动作本质是预设轨迹的“命令行机器人”，每一个动作都经过预先编程或遥控操作，工厂中已经部署的工业机器人同样不构成可比案例——工厂环境下一个动作可以重复一万次且每次条件相同；而在家庭中，一万个动作每个可能只做一次，每次的环境条件都不一样。

　　在王潜看来，当前机器人产业硬件已经到位了——双足、灵巧手、力控关节都很好，但大脑没有跟上，当前机器人的核心瓶颈不在本体，而在智能。家庭环境中的每一秒都可能出现全新事件：猫何时跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力与实验室地板完全不同，现有技术无法处理这种随机性和碎片化。

　　作为从成立之初便聚焦于为机器人构建“大脑”的企业，自变量于2024年底发布了基于VLA（视觉-语言-动作）架构的第一代具身基础模型WALL-A，但通过与58同城合作将搭载WALL-AS模型的机器人送入真实家庭很快看到了VLA架构的“天花板”：VLA架构本质上是三个独立模块的拼接，视觉模块负责识别物体，语言模块理解指令，动作模块生成轨迹，数据在这三个模块之间逐级传递，每经过一次模块边界就会发生信息损耗和延迟，更根本的问题在于——VLA模型只能模仿训练数据中的轨迹，无法真正理解物理世界的规律。

事件进展

　　基于此，自变量从底层架构到训练范式上全面重写并推出了WALL-B。据自变量机器人联合创始人兼CTO王昊介绍，WALL-B区别于行业其他方案的核心，是其从VLA到WUM的架构革命，该架构的设计思路类似于Apple Silicon的统一内存架构——将视觉、语言、动作、物理预测等所有能力，放在同一个网络中从零开始联合训练、融为一体，消除模块间的边界和数据搬运损耗。

　　基于这一架构，WALL-B 实现了三项区别于行业现有模型的核心技术特征：

延伸观察

　　第一，原生多模态。WALL-B 从训练第一天起，即对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练，实现“多模态进、多模态出”。这意味着模型不需要通过“传话”的方式在不同模块间转译信息——它看到杯子的同时就已经在准备伸手，感觉到重量的同时就已经在调整力度，这种架构赋予了模型一种被称为“原生本体感”的能力：WALL-B无需持续观察自身全身或依赖大量外部传感器，即可内在地感知自身的空间尺寸，如高度、宽度、手臂伸展范围，并判断能否通过某个空间或触及某个物体。

　　第二，物理世界的“世界观”。 WALL-B 能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中——例如一个盘子一半悬空在桌沿外——模型可以推断出盘子掉落摔碎，从而采取预防动作，这种对物理规律的理解为零样本泛化提供了基础。

　　第三，与世界交互并自我进化。这是WUM架构区别于所有现有VLA模型的最根本特征。目前主流机器人在任务失败后通常直接停止，返回错误信息，无法从失败中学习。WALL-B的行为模式则完全不同：它在失败后会调整策略再次尝试，如果成功，则将这次成功的经验直接更新到模型参数中。这种机制使模型在真实环境中完成自我迭代，无需工程师重新训练、无需人工注入新数据、无需返回实验室。（文猛）