AI竟能自己玩转《模拟山羊3》?谷歌DeepMind震撼发布SIMA 2智能体,凭像素画面自主解谜、实时对话,突破性技术或成未来机器人伴侣基石!

谷歌DeepMind推出SIMA 2:能自主解决3D游戏难题的AI智能体
谷歌旗下人工智能公司DeepMind近日发布新一代游戏AI智能体SIMA 2(可扩展指令多世界代理)。该智能体基于旗舰大语言模型Gemini开发,能够在多种3D虚拟环境中自主导航、解决复杂任务,并与用户实时对话。研究人员称,这一突破将推动通用人工智能代理的发展,并为现实世界机器人技术奠定基础。
【核心突破】
1. 自主决策能力:SIMA 2可解析游戏画面像素,通过试错学习执行如“点燃灯笼”等多步骤任务,甚至能根据Gemini生成的提示优化操作策略。
2. 跨游戏泛化性:在《无人深空》《模拟山羊3》等8款商业游戏及3个自建虚拟环境中训练后,智能体成功适应未知场景,完成文本、语音或屏幕绘图指令。
3. 人机协作潜力:其掌握的环境导航、工具使用、与人协同解题等能力,被视作未来机器人伴侣的关键技术基石。
与传统游戏AI的差异
不同于专精单一游戏的AlphaZero(围棋)和AlphaStar(《星际争霸2》),SIMA 2的核心目标是训练无预设目标的开放世界指令执行能力。人类可通过多种方式直接控制其行为,实现更自然的交互。
局限与挑战
– 暂无法高效完成需长期记忆的多步骤任务(团队为提升响应速度牺牲了长期记忆模块)。
– 键盘鼠标操作精度远逊人类。
– 纽约大学AI研究员Julian Togelius指出:“仅凭视觉输入实时操作是‘地狱模式’”,且游戏与现实的规则差异可能限制技术迁移。
学界观点
– 乐观派:Togelius认为,尽管现实世界存在物理约束(如无法“按A键开门”),但机器人对自身能力的确定性可能降低学习难度。
– 质疑派:阿尔伯塔大学研究员Matthew Guzdial强调,游戏画面为人类设计易于解析,而现实摄像头数据复杂度更高,技能迁移效果存疑。
未来方向
团队计划结合世界模型Genie 3构建“虚拟训练道场”,通过Gemini的实时反馈让SIMA 2在无限生成的环境中持续进化。项目负责人Joe Marino表示:“我们仅触及了技术潜力的表层。”
—
延伸思考
1. 若SIMA 2的试错学习机制应用于现实机器人,如何解决其在物理世界中尝试高风险动作(如操作尖锐工具)的安全隐患?
2. 当AI智能体掌握数万小时游戏技能后,其“经验”是否可能反哺人类认知科学,揭示新的学习范式?
阅读 Technology Review 的原文,点击链接。