深圳具身智能“大脑”公司自变量完成B轮融资，小米战投领投

界面新闻记者 | 梁宝欣
界面新闻编辑 | 林腾

4月21日，自变量机器人同时释放资本与技术两张关键筹码：一方面宣布完成B轮融资，由小米战投领投；另一方面发布具身智能基础模型WALL-B，并同步推出“机器人进家庭”的下一阶段计划。

目前自变量B轮融资的具体金额尚未正式披露。公司方面向界面新闻记者表示，目前处于股东交割阶段，近期将进一步对外公布融资情况。

随着小米入局，自变量成为国内唯一一家同时获得字节跳动、美团、阿里巴巴以及小米四家互联网大厂投资的具身智能公司。

对于为何能够持续吸引头部投资者入局，自变量CEO王潜将原因归结为技术本身，“就是投技术的绝对领先性”。在他看来，这些投资方本身具备成熟的大模型研发能力与技术判断力，更关注长期技术壁垒的构建，而非短期回报。

王潜同时指出，尽管多家股东本身也在布局具身智能，但这并不影响其对自变量的投资决策。“一方面，这个市场足够大；另一方面，创业公司在一些关键能力上具备大厂难以复制的优势。”

在他看来，软硬件一体化能力是其中的重要竞争力之一。此外，资源投入并不必然转化为技术领先。“技术本身仍然是一个很高的门槛。”王潜表示。

从发展路径来看，大厂押注的自变量，从成立之初便聚焦于为机器人构建“大脑”。其核心是构建端到端的具身智能基础模型，并能够直接控制动作，同时在应用端尝试把机器人真正送进了家庭。

“机器人进入家庭，是我们这个时代最难的技术问题之一。”王潜表示，舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强，但这些动作本质是预设轨迹的“命令行机器人”，每一个动作都经过预先编程或遥控操作。工厂中已经部署的工业机器人同样不构成可比案例：工厂环境下，一个动作可以重复一万次且每次条件相同；而在家庭中，一万个动作每个可能只做一次，每次的环境条件都不一样。

在他看来，当前行业的分化也由此产生。“现在的机器人其实硬件到位了，双足、灵巧手、臂控关节，都很好，也非常不容易，但是大脑没有跟上，它们都只是空有一身漂亮的肌肉而已。”

“像跑马拉松的机器人，基本都是在‘腿’这个硬件能力上做文章，本质上更偏硬件问题。”王潜认为，硬件本身在国内并不构成长期壁垒，“今天做出一个很好的硬件，明天供应链就能跟上，后天大家都可以做一模一样的事情”。

因此，他将两类路线明确区分开来：“马拉松的机器人和我们实际上是两个领域，两个完全不同的行业。”在他看来，相比之下，自变量所做的具身智能基础模型，“可能和做语言模型的公司更接近一些”。

“我们做的本质上是一个基础模型的事情。”王潜认为，基础模型的壁垒显著更高。

2024年底，自变量发布基于 VLA（视觉-语言-动作）架构的第一代具身基础模型 WALL-A，2025年9月，将同样思路架构下的轻量化模型版本WALL-OSS开源。

在应用端，自变量还与58同城合作，将机器人引入家庭清洁场景，参与上门保洁等实际作业。运行于该项目中的WALL-AS（WALL-A迭代版本），为公司带来了大量真实家庭环境数据，也进一步暴露出VLA架构在复杂场景中的能力边界。

在此基础上，自变量对原有技术路径进行升级，推出新一代具身智能基础模型WALL-B。

WALL-B真正区别于行业其他方案的核心，是采用WUM的架构。WUM是将视觉、语言、动作、物理预测等能力，放在同一个网络中从零开始联合训练、融为一体，消除模块间的边界和数据搬运损耗。

而与WUM相比，VLA就类似于M1之前的笔记本电脑架构——视觉模块、语言模块、动作模块各自为政，数据在模块之间搬来搬去，每搬一次就丢一次信息。视觉学到的丰富信息，传到动作模块时只剩一个模糊的摘要。

自变量CTO王昊将其类比为Apple Silicon的统一内存架构。在苹果M1芯片之前的Mac上，CPU、GPU、内存各自独立，数据搬运产生的延迟和损耗成为性能瓶颈；苹果通过统一内存架构让所有处理单元共享同一块内存，性能由此大幅提升。

基于WUM架构，WALL-B在技术上呈现出三项区别于现有模型的特征。

一是原生多模态能力。WALL-B从训练初期即对视觉、听觉、语言、触觉、动作等多模态数据进行联合训练，实现“多模态进、多模态出”。在此基础上，模型具备一定的“本体感”，能够在不依赖外部传感器的情况下，对自身尺寸及动作范围形成内在感知，用于判断空间通过性及触达能力。

二是对物理规律的建模能力。WALL-B可对重力、惯性、摩擦力等基本物理因素进行感知与预测。在未见过的场景中，模型可基于上述规律进行推断，例如判断物体可能掉落，并采取相应动作。

三是交互中的自适应能力。与现有模型在任务失败后停止执行不同，WALL-B在失败后可调整策略再次尝试，并在成功后对结果进行反馈更新。

“得益于这种世界统一模型架构，Wall—B还克服了Transformer架构难以长期记忆内化的问题，所有经验以原生多模态记忆的方式，通过类似人脑记忆的机制实现自我更新。”王昊说。

值得注意的是，近期，“机器人马拉松”引发行业关注。不少业内人士认为，本体侧的领先窗口正在明显收窄，尤其是在具备系统化能力的大厂入场后，部分优势甚至可能仅维持数月。这一定程度上放大了行业对不同技术路径的讨论。

在这种背景下，自变量如何保证“大脑”能力的领先以及能力领先的窗口期又能有多久，成为外界关注的又一焦点。

对于领先周期，王潜以大模型行业为参照称，“类似OpenAI领先Google两年的情况，在机器人领域，这一窗口可能更长”，预计可达到三年以上。

王潜提到，数据是关键点，同时还取决于软硬件一体化能力及完整闭环体系的构建。“我们要把系统拉通，建立一个真正统一的闭环，这才是更长期的竞争力。”

他还指出，模型架构本身并非核心壁垒，“模型的架构很容易抄，每半年的时间大家就知道上一代模型架构的设计”。相比之下，更难复制的是围绕数据及其背后的整套工程体系，包括从数据定义、采集、处理，到训练、评测及反馈优化的完整流程。

而自变量WALL-B的核心数据，来自真实家庭场景。为了获取这类数据，自变量进入了超过100个真实家庭里去训练，获取非标准化场景下的一手数据。“数据才是这个行业最大的秘密”，王昊说，家庭环境中的日常，比如有的家庭地面散落着拖鞋、快递箱和玩具，有的家庭中猫会突然跳上桌子，这些是模型必须学会应对的真实条件。

自变量的数据策略分为两层：实验室数据用于建立基础能力，真实家庭数据用于提升模型在复杂环境中的适应能力。其目标是让机器人在不同家庭场景中具备可用性。

在商业化方面，公司计划在一个月后，将搭载WALL-B的新一代机器人投入首批用户家庭。

王潜表示，目前模型仍处于“实习生”阶段，执行过程中仍会出错，例如将物品放错位置或中途停止。但其能够实现 24 小时不间断工作，且每工作一天都会因新数据的产生而变得更“聪明”。