谷歌DeepMind最近通过官方渠道宣布,推出了一款名为Gemini Robotics On-Device的本地化机器人人工智能模型。这款模型基于视觉-语言-动作(VLA)一体化架构设计,实现了在没有云端支持的情况下对实体机器人的精确操控。
Gemini Robotics On-Device模型的最大创新之处在于其完全本地化运行的特性,这一改变赋予了机器人低延迟响应的能力。尤其在一些网络环境不稳定或要求即时响应的场所,如医疗设施,该模型展现出了巨大的应用潜力。
在操作精度层面,该模型的表现同样令人瞩目。它能够完成诸如拉开包袋拉链、折叠衣物、系鞋带等一系列高精度任务。模型配备的双机械臂设计,目前已适配ALOHA、Franka FR3以及Apollo人形机器人平台,进一步扩展了其应用场景。
为了帮助开发者更轻松地利用这一技术,谷歌提供了全面的Gemini Robotics SDK工具包。开发者仅需通过50至100次的任务演示,即可为机器人定制新功能。系统还支持MuJoCo物理模拟器,允许开发者在部署前进行模拟测试,降低了开发风险。
安全性方面,Gemini Robotics On-Device模型也建立了完善的安全机制。通过Live API进行语义安全检测,确保机器人行为符合规范。同时,底层安全控制器对动作的力度和速度进行精确管理,有效防止了意外伤害的发生。
项目负责人Carolina Parada介绍道:“这款系统充分利用了Gemini的多模态理解能力,就像Gemini能够生成文本、代码和图像一样,现在它也能生成精确的机器人动作,实现了从认知到动作的全面智能化。”
目前,该模型尚处于测试阶段,仅向参与可信测试计划的开发者开放。值得注意的是,这款模型基于Gemini2.0架构开发,与谷歌最新的Gemini2.5版本相比,存在一定的技术差距。
文章采集于互联网