据了解,GO-1开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的LatentPlanner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的ActionExpert(动作专家),借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。
智元机器人联合创始人彭志辉,曾是“华为天才少年计划”的一员,2022年年底从华为离职。2023年2月联合创立智元机器人。同年8月,彭志辉和他团队研发的首款具身智能机器人“远征A1”智能机器人,完成首次公开亮相。
2024年8月,智元机器人推出“远征”和“灵犀”两大家族5款人形机器人。截至2025年1月6日,智元机器人第1000台通用具身机器人下线。
此次发布的GO-1,是首个通用具身基座大模型,基于Vision-Language-Latent-Action(ViLLA)构建。与Vision-Language-Action(VLA)架构相比,ViLLA通过预测LatentActionTokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。
通过Vision-Language-Latent-Action(ViLLA)创新性架构,智元机器人方面在五种不同复杂度任务上测试GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%至78%)。
其中“PourWater”(倒水)、“TableBussing”(清理桌面)和“RestockBeverage”(补充饮料)任务表现尤为突出。此外ag凯发_凯发一触即发还单独验证了ViLLA架构中LatentPlanner的作用,可以看到增加LatentPlanner可以提升12%的成功率(66%至78%)。
同时,GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。
短短两年,智元机器人能成长为国产机器人的头部品牌,离不开资本的力量。目前,智元机器人与上市公司的交集,主要体现在资本、业务和投资三方面。