新浪科技讯 4月22日下午消息,自变量机器人(简称:自变量)发布新一代机器人进家庭计划,宣布5月25日后旗下机器人将搭载自研具身智能基础模型WALL-B入驻真实家庭,开启机器人服务家庭生活的成长之旅。从即日起,自变量开始招募首进家庭机器人的家长,用户可通过官方渠道提交申请。
核心看点
在机器人进入家庭的过程中,家庭场景随机、碎片、不断变化的特性,成为了限制机器人使用场景的一大难题。自变量创始人兼CEO王潜指出,目前全球没有任何一台机器人可以在无遥控操作的情况下,独立完成家庭场景中的综合整理任务。舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强,但这些动作本质是预设轨迹的“命令行机器人”,每一个动作都经过预先编程或遥控操作,工厂中已经部署的工业机器人同样不构成可比案例——工厂环境下一个动作可以重复一万次且每次条件相同;而在家庭中,一万个动作每个可能只做一次,每次的环境条件都不一样。
在王潜看来,当前机器人产业硬件已经到位了——双足、灵巧手、力控关节都很好,但大脑没有跟上,当前机器人的核心瓶颈不在本体,而在智能。家庭环境中的每一秒都可能出现全新事件:猫何时跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力与实验室地板完全不同,现有技术无法处理这种随机性和碎片化。
作为从成立之初便聚焦于为机器人构建“大脑”的企业,自变量于2024年底发布了基于VLA(视觉-语言-动作)架构的第一代具身基础模型WALL-A,但通过与58同城合作将搭载WALL-AS模型的机器人送入真实家庭很快看到了VLA架构的“天花板”:VLA架构本质上是三个独立模块的拼接,视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹,数据在这三个模块之间逐级传递,每经过一次模块边界就会发生信息损耗和延迟,更根本的问题在于——VLA模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律。
事件进展
基于此,自变量从底层架构到训练范式上全面重写并推出了WALL-B。据自变量机器人联合创始人兼CTO王昊介绍,WALL-B区别于行业其他方案的核心,是其从VLA到WUM的架构革命,该架构的设计思路类似于Apple Silicon的统一内存架构——将视觉、语言、动作、物理预测等所有能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运损耗。
基于这一架构,WALL-B 实现了三项区别于行业现有模型的核心技术特征:
延伸观察
第一,原生多模态。WALL-B 从训练第一天起,即对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练,实现“多模态进、多模态出”。这意味着模型不需要通过“传话”的方式在不同模块间转译信息——它看到杯子的同时就已经在准备伸手,感觉到重量的同时就已经在调整力度,这种架构赋予了模型一种被称为“原生本体感”的能力:WALL-B无需持续观察自身全身或依赖大量外部传感器,即可内在地感知自身的空间尺寸,如高度、宽度、手臂伸展范围,并判断能否通过某个空间或触及某个物体。
第二,物理世界的“世界观”。 WALL-B 能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中——例如一个盘子一半悬空在桌沿外——模型可以推断出盘子掉落摔碎,从而采取预防动作,这种对物理规律的理解为零样本泛化提供了基础。
第三,与世界交互并自我进化。 这是WUM架构区别于所有现有VLA模型的最根本特征。目前主流机器人在任务失败后通常直接停止,返回错误信息,无法从失败中学习。WALL-B的行为模式则完全不同:它在失败后会调整策略再次尝试,如果成功,则将这次成功的经验直接更新到模型参数中。这种机制使模型在真实环境中完成自我迭代,无需工程师重新训练、无需人工注入新数据、无需返回实验室。(文猛)
海量资讯、精准解读,尽在新浪财经APP
责任编辑:江钰涵