7月12日消息,据外电报道,谷歌正在使用 Gemini AI 训练其机器人,以便它们能够更好地导航和完成任务。
DeepMind 机器人团队在一篇新研究论文中解释了如何使用Gemini 1.5 Pro的长上下文窗口(决定 AI 模型可以处理多少信息)让用户更轻松地使用自然语言指令与其RT-2 机器人进行交互。
这项技术的工作原理是拍摄指定区域(例如家庭或办公室空间)的视频,研究人员使用 Gemini 1.5 Pro 让机器人观看视频以了解环境。
然后,机器人可以根据观察到的情况,使用口头和/或图像输出执行命令 - 例如在向用户展示手机并询问「我在哪里可以给它充电?」之后,引导用户到电源插座。
DeepMind 表示,其 Gemini 驱动的机器人在 9,000 多平方英尺的操作区域内对 50 多条用户指令的成功率达到 90%。
研究人员还发现初步证据,表明 Gemini 1.5 Pro 使其机器人能够规划如何执行除导航之外的指令。
例如,当办公桌上有很多可乐罐的用户询问机器人是否有他们最喜欢的饮料时,该团队表示 Gemini知道机器人应该导航到冰箱,检查是否有可乐,然后返回给用户报告结果。
DeepMind 表示计划进一步调查这些结果。
谷歌提供的视频演示令人印象深刻,尽管根据研究报告,机器人确认每个请求后明显的切换掩盖了处理这些指令需要 10-30 秒的时间。我们可能还需要一段时间才能与更先进的环境地图机器人共享我们的家园,但至少这些机器人可能能够找到我们丢失的钥匙或钱包。