谷歌推出新的 AI 控制机器人 RT-2 模型:将文本和图像转化为机器人动作
(相关资料图)
编程客栈() 7月31日消息:忘记了那些能画画的人工智能,谷歌最新的人工智能模型能够控制机器人。
上周五,谷歌推出了 Robotics Transformer 2(RT2),这是一个视觉-语言-动作(VLA)模型,可以编程客栈将文本和图像输出为机器人动作。谷歌表示,RT-2「让我们更接近机器人的未来。」
「就像语言模型通过从网络上的文本进行训练来学习一般的思想和概念一样,RT-2 通过从网络数据中传输知识,以指导机器人行为,」谷歌 DeepMind 的机器人主管 Vincent Vanhoucke 编程客栈在一篇博文中解释道。「换句话说,RT-2 能够与机器人交流。」
Vanhoucke 表示,虽然聊天机器人可以通过为它们提供有关某个主题的信息来进行训练,但机器人需要更进一步地在真实世界中「扎根」。他提供的例子是一个红苹果。虽然你可以简单地向聊天机器人解释什么是苹果,但机器人需要知道关于苹果的一切,并且还要学会如何将其与类似物品区分开来,比如一个红色的球,并且它们还必须学会如何采摘那个苹果。
RT-2 比谷歌的 RT-1 和其他模型更进一步,因为它使用了来自网络的数据。例如,如果你想让之前的模型丢掉一些东西,你需要对它们进行培训,告诉它们什么是垃圾以及如何使用编程它。而有了 RT-2,也许你还没有解释过什么是垃圾以及如何使用它,但机器人可以自己通过网络数据弄清楚这一部分。
Robotics Transformer 2 经过了 6000 多次python试验,结果证明其功能与其前身 RT-1 一样好。在新颖的、未曾见过的场景中,前者的得分几乎是前者的两倍(62% vs 32%)。
通过 RT-2,机器人能够学习并将所学知识应用于未来的情况。不过,谷歌指出,目前的限制意味着 RT-2 只能帮助机器人在它们已经知道如何执行的物理任务上变得更好,而不能从零开始学习它们。
尽管如此,这是一个巨大的进步,展示了未来可能出现的可能性。想要了解更多信息,HZSKVXEZnK谷歌在其 DeepMind 博客中详细介绍了 RT-2 的工作原理。