检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业新一代信息技术电子信息

Gemini Robotics 将人工智能带入机器人世界

供稿人:卞志昕供稿时间:2025-03-14 15:44:47关键词:机器人,人工智能,Gemini,Robotics

谷歌DeepMind20253月发布了两款专为机器人设计的突破性人工智能模型——Gemini RoboticsGemini Robotics-ER。这两款模型基于其多模态大模型Gemini 2.0开发,标志着具身人工智能(Embodied AI)领域的重要进展。通过整合视觉、语言与动作控制能力,谷歌旨在解决机器人技术长期面临的“知识到物理动作转化”难题,为通用人形机器人助手等应用铺平道路。 

机器人AI的核心挑战与行业背景

尽管人形机器人硬件近年来发展迅速(如波士顿动力Atlas的复杂运动能力、特斯拉Optimus Gen 3的多任务演示),但如何让AI系统在动态环境中安全、精确地控制机器人完成新任务,仍是行业公认的“圣杯级”挑战。传统机器人依赖预编程指令,难以适应未知场景。例如,要求机器人“整理凌乱的桌面”需要即时感知、语义理解与动作规划的综合能力。业界将具身AI视为“登月目标”,Nvidia等巨头试图通过多模态大模型赋予机器人通用推理能力,但进展缓慢。谷歌此次发布的模型,正是针对这一困境的针对性解决方案。


 

图:Gemini Robotics 将人工智能带入现实世界

Gemini Robotics:视觉-语言-动作的整合突破

作为核心模型,Gemini RoboticsGemini 2.0基础上新增物理动作输出模块,形成“视觉-语言-动作”闭环。其技术突破体现为三大方向:

通用性方面,模型无需针对特定任务微调即可执行新指令。例如,训练数据中未包含“折纸狐狸”步骤,但通过理解折纸原理与视觉引导,机器人能自主完成折叠动作。该模型可识别不同形状、摆放位置的物体(如散落的零食袋),并适应家庭、仓库等多样化场景。在综合泛化基准测试中,其表现较此前最优模型(如RT-2)提升一倍以上。 

互动性的提升使机器人支持自然语言指令及动态调整能力。用户可用日常对话修改指令,例如临时要求“先检查苹果是否成熟,再拿香蕉”,机器人能即时调整动作序列。通过实时摄像头数据,模型还可监测环境变化:若任务执行中篮子被碰倒,系统会自动重新规划路径。这种协作能力在工业场景中尤为重要,工人可通过口头指令指挥机器人配合装配流程,减少传统编程的滞后性。 

灵巧性的突破体现在复杂操作上。例如,折纸任务需精确计算纸张折叠角度与力度,封装零食袋需对齐Zip-loc封口并施加均匀压力。尽管模型主要在ALOHA 2双手机器人平台训练,但其底层设计支持迁移至Franka机械臂甚至Apptronik Apollo人形机器人,证明硬件适配的广泛性。 

Gemini Robotics-ER:空间推理与代码生成的深度优化

作为增强版模型,Gemini Robotics-ER专注于提升空间理解与代码生成能力,目标是与现有机器人控制系统无缝集成。在抓取咖啡杯的任务中,模型不仅能定位杯体,还可判断把手适合两指抓握的区域、规划避碰轨迹,并计算施力大小以防止杯体破裂。通过融合深度视觉与语义信息,其3D感知能力显著强化,可精确估算物体尺寸、材质与空间关系。 

模型还能将复杂指令(如“清洁工作台”)分解为动作代码链,涵盖移动路径、抓取顺序与工具调用逻辑。若代码生成结果不理想(如机械臂无法到达某角度),系统可通过分析少量人类演示视频调整方案。在端到端任务测试中,其成功率较Gemini 2.0提升2-3倍,代码错误率降低40%。例如,在“组装简易家具”任务中,模型能自主处理螺丝错位、零件缺失等意外情况。

图:如果一个物体从手中滑落或者被移动,Gemini Robotics会迅速重新计划并继续进行
 

技术跨越:从RT-2Gemini的演进

2023年发布的RT-2模型虽通过互联网数据提升了语言理解与场景泛化能力,但其动作限于预训练范围,且无法动态调整任务。相比之下,Gemini模型可自主生成未预定义的动作序列(如折叠纸张的独特角度),并在任务中途被打断时(如目标物体被移走)1秒内重新规划方案。其多模态融合机制将视觉信号直接驱动动作生成,而非分阶段处理感知与决策,大幅提升了执行效率。 

合作生态:从实验室到商业落地

谷歌正通过合作伙伴关系推动技术实用化。与机器人公司Apptronik的合作聚焦于将Gemini模型植入其Apollo人形机器人,解决全身关节协调与动力学计算难题,目标应用包括仓储物流与家庭助老。同时,波士顿动力(Atlas机器人)、Agility Robotics(双足机器人Digit)等企业通过“可信测试者”计划获得模型早期访问权限,以在真实场景中优化避障等长尾问题。 

硬件兼容性验证显示,模型可适配学术界常用的Franka机械臂,未来或通过API开放至第三方厂商。这一生态布局为商业化铺平道路,但也面临挑战:Gemini依赖高性能算力,如何部署至低成本机器人仍需探索。 

安全框架:从硬件防护到伦理规则

谷歌采用分层安全策略,保留传统防碰撞传感器、关节力矩限制等底层防护措施,同时引入受阿西莫夫“机器人三定律”启发的“机器人宪法”。例如,模型需遵守“不得执行可能导致人类受伤的动作”等自然语言规则。新发布的ASIMOV数据集包含数万条测试场景,用于评估模型决策安全性,如判断递刀时的刀刃朝向,或在儿童在场时限制移动速度。 

内部治理由“责任与安全委员会”审核技术风险,外部专家参与测试识别漏洞。这一框架试图平衡创新与伦理,但如何量化规则的有效性仍是待解课题。 

局限性及未来挑战

尽管技术前景广阔,Gemini模型仍面临现实制约。当前测试均在受控实验室完成,嘈杂、光照多变等真实场景的可靠性尚未验证。极端案例(如透明物体识别)需针对性优化,而商业化障碍包括算力成本与用户信任问题(如家庭场景中的明火操作)。 

行业竞争加剧亦构成压力:特斯拉Optimus虽被质疑依赖远程操控,但其硬件迭代迅速;Figure AI获亚马逊投资专注物流机器人,但未公开AI细节。Gemini的核心优势在于多模态泛化能力,但需证明其相比专用模型的成本效益。 

结语:通用机器人时代的临界点?

谷歌DeepMind的此次突破,标志着机器人AI从“单一任务工具”向“通用助手”演进的关键一步。通过泛化能力、安全框架与生态合作,人形机器人或将从实验室走入家庭与工厂。然而,技术落地仍需跨越真实环境验证、成本控制与伦理合规等多重障碍。若这些问题得以解决,人类与机器人协作共生的未来图景或将加速成为现实。

参考文献:

1.Gemini Robotics brings AI into the physical world[EB/OL].https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/,2025-3-12.

2.Google’s new robot AI can fold delicate origami, close zipper bags without damage[EB/OL].https://arstechnica.com/ai/2025/03/googles-origami-folding-ai-brain-may-power-new-wave-of-humanoid-robots/,2025-3-13.