蚂蚁灵波LingBot-World正式全栈开源 推动具身智能发展
蚂蚁集团旗下具身智能公司灵波科技本周接连开源了四个大模型。1月30日,蚂蚁灵波科技宣布开源具身世界模型LingBot-VA。该模型提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人一样“边推演、边行动”。
从1月27日至29日,灵波科技已相继开源高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA和世界模型LingBot-World。LingBot-Depth模型与奥比中光合作,主要攻克机器人的视觉难题,让机器人精准抓取透明反光物,更清晰地“看清楚”物理世界。LingBot-VLA是蚂蚁开源的第一款具身智能基座模型,实现了跨本体、跨任务泛化能力,推动“一脑多机”走向可规模化落地,缓解具身智能模型落地面临的泛化性问题。LingBot-World则是一款为具身智能、自动驾驶及游戏开发等场景创造高保真、可交互的虚拟训练环境的世界模型,在多项关键指标上,蚂蚁称LingBot-World可对标Google Genie 3。
一周内连续发布多个大模型,显示蚂蚁在具身智能领域尝试通过开源建立行业影响力。成立灵波科技时,蚂蚁曾表示要打造行业领先的机器人产品,如今这一目标进一步扩展到具身智能的基座领域。除了模型权重的开源,蚂蚁在LingBot-VLA的开源中还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库,有望降低开发者的模型训练周期和成本,降低开发者商业化落地的算力与时间门槛。
蚂蚁灵波科技CEO朱兴表示,具身智能要想大规模应用,依赖高效的具身基座模型,这直接决定了是否可用以及能否用得起。蚂蚁期待加速具身智能技术的迭代与规模化应用,助力AGI更快到来。具身智能仍在经历从实验室走向千行百业的难关。大厂的AGI战略向物理世界的延伸或许将加速这一进程,未来具身智能的竞争将从技术卡位进一步蔓延至全栈能力和生态协同建设之中。蚂蚁灵波LingBot-World正式全栈开源 推动具身智能发展