深圳具身智能“大脑”公司自变量完成B轮融资,小米战投领投

界面新闻记者 | 梁宝欣

界面新闻编辑 | 林腾

4月21日,自变量机器人同时释放资本与技术两张关键筹码:一方面宣布完成B轮融资,由小米战投领投;另一方面发布具身智能基础模型WALL-B,并同步推出“机器人进家庭”的下一阶段计划。

目前自变量B轮融资的具体金额尚未正式披露。公司方面向界面新闻记者表示,目前处于股东交割阶段,近期将进一步对外公布融资情况

随着小米入局,自变量成为国内唯一一家同时获得字节跳动、美团、阿里巴巴以及小米四家互联网大厂投资的具身智能公司。

对于为何能够持续吸引头部投资者入局,自变量CEO王潜将原因归结为技术本身,“就是投技术的绝对领先性”。 在他看来,这些投资方本身具备成熟的大模型研发能力与技术判断力,更关注长期技术壁垒的构建,而非短期回报。

王潜同时指出,尽管多家股东本身也在布局具身智能,但这并不影响其对自变量的投资决策。“一方面,这个市场足够大;另一方面,创业公司在一些关键能力上具备大厂难以复制的优势。”

在他看来,软硬件一体化能力是其中的重要竞争力之一。此外,资源投入并不必然转化为技术领先。“技术本身仍然是一个很高的门槛。”王潜表示

从发展路径来看,大厂押注的自变量,从成立之初便聚焦于为机器人构建“大脑”。其核心是构建端到端的具身智能基础模型,并能够直接控制动作,同时在应用端尝试把机器人真正送进了家庭。

“机器人进入家庭,是我们这个时代最难的技术问题之一。”王潜表示,舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强,但这些动作本质是预设轨迹的“命令行机器人”,每一个动作都经过预先编程或遥控操作。工厂中已经部署的工业机器人同样不构成可比案例:工厂环境下,一个动作可以重复一万次且每次条件相同;而在家庭中,一万个动作每个可能只做一次,每次的环境条件都不一样。

在他看来,当前行业的分化也由此产生。“现在的机器人其实硬件到位了,双足、灵巧手、臂控关节,都很好,也非常不容易,但是大脑没有跟上,它们都只是空有一身漂亮的肌肉而已。

“像跑马拉松的机器人,基本都是在‘腿’这个硬件能力上做文章,本质上更偏硬件问题。”王潜认为,硬件本身在国内并不构成长期壁垒,“今天做出一个很好的硬件,明天供应链就能跟上,后天大家都可以做一模一样的事情”。

因此,他将两类路线明确区分开来:“马拉松的机器人和我们实际上是两个领域,两个完全不同的行业。”在他看来,相比之下,自变量所做的具身智能基础模型,“可能和做语言模型的公司更接近一些”。

“我们做的本质上是一个基础模型的事情。”王潜认为,基础模型的壁垒显著更高。

2024年底,自变量发布基于 VLA(视觉-语言-动作)架构的第一代具身基础模型 WALL-A,2025年9月,将同样思路架构下的轻量化模型版本WALL-OSS开源。

在应用端,自变量还与58同城合作,将机器人引入家庭清洁场景,参与上门保洁等实际作业。运行于该项目中的WALL-AS(WALL-A迭代版本),为公司带来了大量真实家庭环境数据,也进一步暴露出VLA架构在复杂场景中的能力边界。

在此基础上,自变量对原有技术路径进行升级,推出新一代具身智能基础模型WALL-B。

WALL-B真正区别于行业其他方案的核心,是采用WUM的架构。WUM是将视觉、语言、动作、物理预测等能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运损耗。

而与WUM相比,VLA就类似于M1之前的笔记本电脑架构——视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。

自变量CTO王昊将其类比为Apple Silicon的统一内存架构。在苹果M1芯片之前的Mac上,CPU、GPU、内存各自独立,数据搬运产生的延迟和损耗成为性能瓶颈;苹果通过统一内存架构让所有处理单元共享同一块内存,性能由此大幅提升。

基于WUM架构,WALL-B在技术上呈现出三项区别于现有模型的特征。

一是原生多模态能力。WALL-B从训练初期即对视觉、听觉、语言、触觉、动作等多模态数据进行联合训练,实现“多模态进、多模态出”。在此基础上,模型具备一定的“本体感”,能够在不依赖外部传感器的情况下,对自身尺寸及动作范围形成内在感知,用于判断空间通过性及触达能力。

二是对物理规律的建模能力。WALL-B可对重力、惯性、摩擦力等基本物理因素进行感知与预测。在未见过的场景中,模型可基于上述规律进行推断,例如判断物体可能掉落,并采取相应动作。

三是交互中的自适应能力。与现有模型在任务失败后停止执行不同,WALL-B在失败后可调整策略再次尝试,并在成功后对结果进行反馈更新。

“得益于这种世界统一模型架构,Wall—B还克服了Transformer架构难以长期记忆内化的问题,所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。”王昊说。

值得注意的是,近期,“机器人马拉松”引发行业关注。不少业内人士认为,本体侧的领先窗口正在明显收窄,尤其是在具备系统化能力的大厂入场后,部分优势甚至可能仅维持数月。这一定程度上放大了行业对不同技术路径的讨论。

在这种背景下,自变量如何保证“大脑”能力的领先以及能力领先的窗口期又能有多久,成为外界关注的又一焦点。

对于领先周期,王潜以大模型行业为参照称,“类似OpenAI领先Google两年的情况,在机器人领域,这一窗口可能更长”,预计可达到三年以上。

王潜提到,数据是关键点,同时还取决于软硬件一体化能力及完整闭环体系的构建。“我们要把系统拉通,建立一个真正统一的闭环,这才是更长期的竞争力。”

他还指出,模型架构本身并非核心壁垒,“模型的架构很容易抄,每半年的时间大家就知道上一代模型架构的设计”。相比之下,更难复制的是围绕数据及其背后的整套工程体系,包括从数据定义、采集、处理,到训练、评测及反馈优化的完整流程。

而自变量WALL-B的核心数据,来自真实家庭场景。为了获取这类数据,自变量进入了超过100个真实家庭里去训练,获取非标准化场景下的一手数据。“数据才是这个行业最大的秘密”,王昊说,家庭环境中的日常,比如有的家庭地面散落着拖鞋、快递箱和玩具,有的家庭中猫会突然跳上桌子,这些是模型必须学会应对的真实条件。

自变量的数据策略分为两层:实验室数据用于建立基础能力,真实家庭数据用于提升模型在复杂环境中的适应能力。其目标是让机器人在不同家庭场景中具备可用性。

在商业化方面,公司计划在一个月,将搭载WALL-B的新一代机器人投入首批用户家庭。

王潜表示,目前模型仍处于“实习生”阶段,执行过程中仍会出错,例如将物品放错位置或中途停止。但其能够实现 24 小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。