炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策( 二 )


文章图片
模型架构上 , 为了简洁和可扩展性 , 就在最经典的原版Transformer基础上小改 , 具体参数如下:
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
24层11.8亿参数版的Gato , 在谷歌16x16CloudTPUv3切片上训练了大约4天 。
到了部署阶段 , Gato对于视觉和语言任务就像传统Transformer和ViT那样运行 。
对于游戏和机器人控制的行为模式则可以理解为“走一步看一步” 。
首先给出一个任务提示 , 比如游戏操作或机器人动作 , 作为输出序列的开头 。
接下来Gato会观察当前的环境 , 对动作向量进行一次自回归采样 , 执行动作后环境发生变化 , 再重复这个过程……
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
那么这样训练出来的Gato , 在各项任务中到底表现如何?
仅靠12亿参数成为多面手玩游戏方面 , Gato的表现可以用一张图来总结 。
x轴是训练集之中专家水平的百分比 , 其中0代表一个随机参数模型的水平 。
y轴是Gato超过或达到对应专家水平的任务数量 。
最终结果 , Gato在604个任务中 , 有450个超过了专家水平的50% 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
更详细的结果如下:
雅达利游戏测试中 , Gato在23个游戏上表现超过人类平均分 , 11个游戏上比人类得分高一倍 。
这些游戏包括经典的乒乓球、赛车 , 也包括射击、格斗等多种类型 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策】在Bengio团队推出的BabyAI测试上 , Gato几乎在所有关卡达到了专家水平的80% , 最难的几个Boss关达到75% 。 与之前BabyAI榜单上的两个模型水平相当(分别为77%和90%) , 但这两个模型都针对性的用了上百万个演示来训练 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
△BabyAI关卡示例
在Meta-World上(虚拟环境中操作机械臂) , Gato在全部45个任务中 , 有44个超过专家水平的50% , 35个超过80% , 3个超过90% 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
△Meta-World任务示例
操纵真实机器人方面 , 与之前模型对比也不遑多让 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
至于视觉和文本任务DeepMind这次至少为了验证通用模型的可行性 , 没有做跑分 , 而是给了一些示例 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
△描述图像
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
△聊天对话
最后 , DeepMind还对Gato模型的可扩展性做了评估 。
虽然当前Gato在每一个单独任务上都还比不上SOTA结果 , 但实验结果表明 , 随着参数、数据和硬件的增加 , Gato模型的性能还有成比例上涨的空间 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
另外 , Gato在少样本学习上也表现出一定潜力 。
炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
文章图片
DeepMind认为 , 这样一个通用模型将来可通过提示或微调迅速学习新的任务 , 再也不用为每个任务都重头训练一个大模型了 。
通用人工智能还有多远?看完Gato如此表现 , 网友们的“大受震撼”也就不奇怪了 。