小米机器人真机亮相:消费级显卡畅跑,画面首曝惊艳业界
小米机器人团队发布全新开源VLA模型Xiaomi-Robotics-0 快科技2月12日消息,小米机器人团队正式发布并开源全新具身智能VLA模型——Xiaomi-Robotics-0,真机运行画面首次对外曝光。 这不是一次普通的技术更新,而是小米在机器人领域的一次关键破局。47亿参数规模、兼具视觉语言理解与高性能实时执行能力,在三大主流仿真测试中横扫行业标杆,拿下全项SOTA(State-of-the-Art,即当前公开可验证的最先进、最高水平),更在真实机器人上实现流畅动作。 Xiaomi-Robotics-0:突破行业痛点,实现实时推理 最具颠覆性的是,它能在普通消费级显卡上实现实时推理,直接打破了高端机器人模型“只能实验室跑、普通人用不起”的魔咒,这也是其区别于同类产品的核心亮点之一。 很多人好奇,现在的机器人模型,到底卡在哪了? 行业里藏着两个多年未解决的核心痛点: 推理延迟高、动作不连贯:传统 VLA(Vision-Language-Action,视觉 - 语言 - 动作)模型虽然参数规模可圈可点、泛化能力较强,但在真实物理世界中,庞大的推理延迟让机器人像“延迟卡顿的木偶”,动作断断续续,根本没法像人一样自然操作,被网友调侃为“反应迟钝的木头人”; 硬件门槛极高:稍微具备高性能的模型,必须依赖昂贵的专业显卡才能正常运行,普通开发者、小团队根本碰不起,导致先进技术只能被锁在实验室,无法落地普及。 小米Xiaomi-Robotics-0:解决行业顽疾,实现物理智能泛化 在此基础上,还有一个普遍难题。不少模型“仿真测试成绩好看,一上真机就拉胯”,无法在现实世界里稳定完成叠毛巾、拆积木这类真实物理任务,形成理论与实操脱节的尴尬。而小米这次的Xiaomi-Robotics-0,就是冲着解决这些行业顽疾来的。 官方明确表态:“今天,我们对外发布:Xiaomi-Robotics-0。这是一个拥有47亿参数、兼具视觉语言理解与高性能实时执行能力的开源VLA模型。它不仅在三大主流的仿真测试中获得优异成绩,更在现实真机任务中实现了物理智能的泛化——动作连贯、反应灵敏,且能在消费级显卡上实现实时推理。” 这句话精准概括了模型的核心优势,尤其要强调,不用高端计算设备,不用斥巨资购买专业显卡,普通消费级显卡就能让它稳定跑起来,这也是小米此次最具突破性的成果之一,直接拉低了具身智能技术的落地门槛。 小米Xiaomi-Robotics-0:双脑协同,实现高效决策与执行 能做到这一点,核心是小米自研的Mixture-of-Transformers(MoT)混合架构,通俗说就是给机器人装了“双脑协同系统”,兼顾决策与执行效率。 视觉语言大脑(VLM):负责听懂人话、看懂环境,哪怕是“把毛巾叠好”这种模糊指令,也能精准理解空间关系和任务目标,保留了VLM本身的多模态理解能力,这是此前很多VLA模型所不具备的优势; 动作执行小脑(DiT):专门负责把指令变成丝滑动作,生成连续流畅的“动作块”,再通过流匹配技术保证精准稳定,让机器人告别机械卡顿,动作接近人类的灵活度,从根源上解决了传统模型动作断层的痛点。 小米Xiaomi-Robotics-0:两阶段训练方案,实现智能与效率兼顾 为了让机器人既聪明又能干”,团队还设计了两阶段训练方案。 先通过跨模态预训练,让模型在学动作的不丢失物体识别、视觉问答等基础能力,避免“练了手工、废了脑子”,同时通过Action Proposal机制让VLM的特征空间与动作空间对齐,为后续实操打下基础。 再通过后训练优化,用异步推理模式从机制上解决真机“动作断层”问题,搭配Clean Action Prefix让动作轨迹连续不抖动,通过Λ-shape Attention Mask让机器人聚焦当前视觉反馈、摆脱历史惯性,哪怕环境有小变化,也能即时调整,大幅提升环境适配能力。 小米Xiaomi-Robotics-0:真机演示,展现物理智能落地成果 从这次曝光的真机视频里就能直观感受到,处理毛巾这种软塌塌的柔性物体,它会先铺平、再对折、整理整齐,多余的毛巾还会主动放回原位。面对刚性积木,它能一步步稳妥拆解,手眼协调极其稳定,不会出现卡顿或失误。不管是软质材料还是硬质物件,都能从容完成,这就是物理智能真正落地的直观表现,也是小米此次突破的核心价值所在。 在Libero、Calvin、SimplerEnv三大全球主流具身智能测试集里,Xiaomi-Robotics-0对标超过30款主流模型,在所有基准测试中全部拿下SOTA,用实打实的数据坐稳行业第一梯队,真正实现了“仿真通、真机强、多模态能力不丢失”的突破。 小米Xiaomi-Robotics-0:全量开源,打破技术垄断 比技术更强的是小米的格局:这次成果直接全量开源——技术主页、GitHub开源代码、Hugging Face模型权重全部公开,全球开发者都能免费使用、二次开发,相关资源可在各大平台直接获取,彻底打破了大厂对具身智能核心技术的垄断。 这意味着,原本高高在上的具身智能技术,第一次真正向行业敞开大门,不再是大厂专属玩具,普通开发者也能参与其中,加速整个行业的技术迭代。 小米Xiaomi-Robotics-0:未来可期,家用机器人走进千家万户 雷军也在微博中透露,小米早已深度布局机器人赛道,目前仍在全球招募顶尖人才,团队还在持续冲刺下一代技术,此次发布的Xiaomi-Robotics-0只是阶段性研究成果,未来还会有更多突破。 当机器人不再是卡顿的演示道具,而是动作流畅、反应灵敏,还能在消费级硬件上轻松跑起来的真实产品,那个“家用机器人走进千家万户”的未来,真的离我们越来越近了。
