MotuBrain世界行动模型

Motus 在 2025 年 12 月奠定了 World Action Models 的核心思想：

通过 UniDiffuser 来统一建模和调度 video 和 action 两个连续模态，从而建模 video 和 action 的所有交互可能，一次训练即可推理五种模式：VLA、世界模型、视频生成模型、逆动力学模型、视频动作联合预测五类分布。然后 video generation model、action 与语言建立三流 MoT 架构，融合各种现在已有的预训练基座模型（专家模型），充分地融合各类多模态的先验，可以同时理解场景、处理语言指令、预测结果和生成动作，从而克服了传统方法碎片化功能的局限性。Motus 通过这种方式实现了高语义理解和遵循能力，摆脱了 VLA 语义遵循能力差的问题。

正是因为大一统的建模，因此 Motus 中智能最本质的来源在于模型 可以吸收各类多模态异构数据。它不仅可以通过正常的 action 预测模式吸收完整的机器人任务轨迹数据，也能够通过 Video Prediction 来利用缺少动作标注的视频数据，通过世界的正向、逆向动力学模型来利用缺少任务语言指令的数据。相比传统 VLA 主要依赖特定机器人、特定任务轨迹数据进行训练，MotuBrain 的数据来源更丰富，泛化能力也更强。

01 · 统一世界-动作建模

用一个模型统一建模 video 与 action，使 VLA、世界模型、视频生成、逆动力学和视频动作联合预测都成为同一建模框架下的不同推理模式。

02 · 从动作拟合到世界理解

通过联合建模 video-action 分布，模型学到的不只是 observation 到 action 的映射，而是任务、环境变化和动作后果之间共享的 world knowledge。

03 · 异构数据吸收能力

统一建模让模型可以同时利用纯视频数据、无任务标签数据和完整机器人轨迹数据，从而突破传统 VLA 只能依赖特定机器人任务轨迹的限制。

04 · 语言-动作-Video 三流 MoT、多基座模型融合

通过 MoT 融合视频生成模型、语言模型和动作模型的先验，让模型同时获得动态世界理解、语义理解和动作生成能力。

05 · 多任务正向 Scaling

任务越多，模型共享的世界知识越多，平均成功率越高，说明统一建模学到的是跨任务规律，而不是单任务动作模式。

世界行动模型 MotuBrain

用任意视角数量的统一建模打通不同相机配置，让模型不再依赖固定的视觉输入形态；
用独立的语言理解通路打通高层语义与低层控制的交互，让语言指令不再只是视觉特征上的附加条件，而是直接参与行动生成过程，使模型能够更稳定地遵循复杂任务指令；
用统一 action 表征打通不同机器人本体，让模型学习到的不是某一台机器人的动作格式，而是更具迁移性的行动规律，从而支持多本体快速适配；
Teacher Forcing 自回归 + Diffusion 支持长程任务记忆和实时闭环控制，让模型可以直接完成超过 10 个原子动作的长序列任务，使长程执行不再需要 VLM 的 text memory；
超大规模具身模型的推理优化、Video-to-Action 推理模式和实时闭环控制，让具备最高智能的大参数量具身基座模型也能在机器人上云边端协同实时推理、丝滑控制；
综合上述技术的复杂系统使得 MotuBrain 可以 50-100 条同样本数据快速部署到新本体，并在多家仿人形本体上验证效果：不借助 VLM 上层规划、双系统、memory、强化数据/重试数据，MotuBrain 仅凭原生 World Action Model 即可高成功率完成超过 10 个原子动作的长程任务、左右手同时执行不同任务、理解双手不同任务目标。

架构和方法

预训练

使用 relative EEF 作为统一 action 表征，将不同机器人的动作都表示为相对于当前末端执行器状态的变化，让模型能够充分利用异构机器人数据，并具备多本体快速 adaptation 能力；
引入独立的 text 流，将语言指令作为单独模态建模，增强模型对任务语义、步骤约束和指令遵循的理解能力；
在 token level 拼接不同视角图像，并使用 view-dependent RoPE offset 区分不同相机视角，使模型能够支持任意数量视角的统一建模，适配不同机器人和不同场景下的相机配置；
采用 noisy condition 技巧，在训练时以 50% 概率对条件帧加入随机高斯噪声，提升模型对真实部署中视觉噪声、观测扰动和状态偏差的鲁棒性；
使用 H-bridge attention，只在 Transformer 中间层进行 video-action joint attention，在保留跨模态交互能力的同时，减少全层联合注意力带来的计算开销，并避免引入过多与特定模态相关的无效信息。

后训练和推理

使用 Teacher Forcing 自回归结合 Diffusion 进行后训练，保证生成动作连续性，从而支持实时闭环控制与多步骤任务执行；
综合 DiT cache、FP8 quantization、CUDA graph 等推理优化方法，在极大的模型参数量和计算量下，仍然可以达到约 5Hz 的推理频率，相比 Motus 加速约 10 倍；
使用 IDM / Video-to-Action 推理模式，在推理时不再完整生成 video，而是只更新 action 分支；结合其他系统级优化后，推理频率可进一步提升至 11Hz，超过人类典型反应速度；
利用推理时 Real-Time Chunking，将长序列动作拆分为连续可执行的动作块，并结合动作平滑策略，实现 World Action Model 在真实机器人上的稳定闭环与丝滑控制。

成果

在 RoboTwin2.0 这一测试具身模型执行 Action 的榜单中，MotuBrain 在 Clean 和 Randomized 两个场景下分别达到 95.8 和 96.1，均排名第一，是榜单上唯一一个在随机环境下平均分超过 95 的模型，在大多数具体任务中也都取得了 100 或接近 100 的成绩。这是在世界中行动的能力。

多任务泛化性的 scaling curve：任务数量越多，任务之间的共享世界知识越多，任务的平均成功率越高。而 VLA 则会受任务之间的互相影响。

在 WorldArena 上，MotuBrain 同样拿下了第一。这个 benchmark 测试的是模型能否理解运动规律，能否对时间序列中的物理变化做出准确的推演和预测，以及是否具备对环境状态变化的认知能力。这是预测世界的能力。
在 CVPR2026 RoboChallenge Table30v2 总共 4 种机器人真机的限时比赛上，即便在 2 种机器人没约上最优模型的计分测试的情况下，MotuBrain 也拿到了第三名的成绩，并且和第二名成功率一样。
MotuBrain 可以仅使用 50-100 条同本体数据快速适配新的机器人平台，并在多家具身本体上验证了其真实部署能力。在不借助 VLM 上层规划、双系统、外部 memory、强化数据或 retry-specific 数据的情况下，MotuBrain 仅依靠原生 World Action Model，就可以高成功率完成复杂真实任务。

长程任务执行能力

MotuBrain 能够完成超过 10 个原子动作的长序列任务。例如在插花任务中，机器人需要将不同颜色的花依次插入花瓶。尽管训练数据只覆盖同一个花瓶和相对固定的位置，模型在推理时仍能泛化到不同花瓶、不同摆放位置以及中途动作被打断的情况；当某朵花插入失败或被重新摆放后，模型能够根据新的视觉状态继续调整动作，而不是机械重复原有轨迹。

双臂协同能力

MotuBrain 能够理解左右手分别承担不同任务目标，并在执行中保持协调。例如在倒水和拿面包的组合任务中，样本数据中左右手通常同时执行倒水与抓取动作，而在推理阶段，即使需要先将水倒满，再驱动单手完成拿面包动作，模型也能理解「倒水」和「拿面包」是两个不冲突的子目标，从而完成灵活的双臂协作。

在线纠错能力

MotuBrain 在没有专门使用 retry 数据或强化数据训练的情况下，也能表现出一定的任务重试和自我修正能力。例如在捞丸子任务中，训练样本通常是一次性成功捞起丸子；但在真实推理时，如果漏勺第一次捞空，模型不会简单结束动作，而是会重新尝试捞取，体现出对任务目标的理解，而不是只复现机械动作轨迹。